na().drop() 和 filter(col.isNotNull) (Apache Spark) 之间的区别

df.na().drop()和df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN())在语义上有什么区别吗df Apache Spark Dataframe？

或者，如果第一个在列onlyColumnInOneColumnDataFrame中null（不是字符串 null，而只是一个null值）之后没有返回，而第二个返回，我应该将其视为一个错误吗？

编辑：也添加了!isNaN()。onlyColumnInOneColumnDataFrame是给定Dataframe中唯一的列。假设它的类型是 Integer .

使用 df.na.drop() 删除包含任何 null 或 NaN 值的行。

使用df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull())，您可以删除那些仅在列中具有 null 的行 onlyColumnInOneColumnDataFrame .

如果你想实现同样的事情，那将是df.na.drop(["onlyColumnInOneColumnDataFrame"])。

在一种情况下，我必须选择具有 NA 或 null 或>=0 的记录。我可以通过仅使用合并功能而没有上述 3 个函数来做到这一点。

rdd.filter("coalesce(index_column, 1000) >= 0")

相关内容

最新更新

热门标签：