apache spark sql - pyspark:是否可以在空数据框或rdd中添加行?



我有一个数据框架(从hive表创建)。我已经将数据框转换为RDD,我正在逐行检索。在每一行上,我解析每一列的值,如果某一列无效,将用列名和值添加到字典中。

然后检查字典是否为空。如果非空,我想将该行添加到数据框中。再次在下一行继续相同的解析。

我用表模式创建了一个空数据框架。是否可以将行添加到空数据框中,以便在结束时我可以将数据框保存到error_log_table中。

否则,请建议您是否有更好的方法。我正在考虑向原始数据框添加一个新列,如果行无效,将行'列值修改为'T'。这样我就可以过滤无效的行。我不确定如何单独为特定的无效行更新新的列值。

谢谢你的意见和建议。

谢谢! !

可以使用withColumn函数

df.withColumn(new_column_name, function_which_will_return_required_value)

最新更新