小贝子编程

apache spark sql - pyspark:是否可以在空数据框或rdd中添加行?

本文关键字：数据 rdd 添加行 sql spark pyspark 是否 apache pyspark apache-spark-sql
更新时间 : 2023-08-20
英文 : apache spark sql - pyspark: Is it possible to add rows to empty dataframe or rdd

我有一个数据框架(从hive表创建)。我已经将数据框转换为RDD，我正在逐行检索。在每一行上，我解析每一列的值，如果某一列无效，将用列名和值添加到字典中。

然后检查字典是否为空。如果非空，我想将该行添加到数据框中。再次在下一行继续相同的解析。

我用表模式创建了一个空数据框架。是否可以将行添加到空数据框中，以便在结束时我可以将数据框保存到error_log_table中。

否则，请建议您是否有更好的方法。我正在考虑向原始数据框添加一个新列，如果行无效，将行'列值修改为'T'。这样我就可以过滤无效的行。我不确定如何单独为特定的无效行更新新的列值。

谢谢你的意见和建议。

谢谢! !

可以使用withColumn函数

df.withColumn(new_column_name, function_which_will_return_required_value)

相关内容