na().drop() 和 filter(col.isNotNull) (Apache Spark) 之间的区别



df.na().drop()df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN())在语义上有什么区别吗df Apache Spark Dataframe

或者,如果第一个在列onlyColumnInOneColumnDataFramenull(不是字符串 null,而只是一个null值)之后没有返回,而第二个返回,我应该将其视为一个错误吗?

编辑:也添加了!isNaN()onlyColumnInOneColumnDataFrame是给定Dataframe中唯一的列。假设它的类型是 Integer .

使用 df.na.drop() 删除包含任何 null 或 NaN 值的行。

使用df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull()),您可以删除那些仅在列中具有 null 的行 onlyColumnInOneColumnDataFrame .

如果你想实现同样的事情,那将是df.na.drop(["onlyColumnInOneColumnDataFrame"])

在一种情况下,我必须选择具有 NA 或 null 或>=0 的记录。我可以通过仅使用合并功能而没有上述 3 个函数来做到这一点。

rdd.filter("coalesce(index_column, 1000) >= 0") 

最新更新