df.na().drop()
和df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull() && !df.col("onlyColumnInOneColumnDataFrame").isNaN())
在语义上有什么区别吗df
Apache Spark Dataframe
?
或者,如果第一个在列onlyColumnInOneColumnDataFrame
中null
(不是字符串 null,而只是一个null
值)之后没有返回,而第二个返回,我应该将其视为一个错误吗?
编辑:也添加了!isNaN()
。onlyColumnInOneColumnDataFrame
是给定Dataframe
中唯一的列。假设它的类型是 Integer
.
使用 df.na.drop()
删除包含任何 null 或 NaN 值的行。
使用df.filter(df.col("onlyColumnInOneColumnDataFrame").isNotNull())
,您可以删除那些仅在列中具有 null 的行 onlyColumnInOneColumnDataFrame
.
如果你想实现同样的事情,那将是df.na.drop(["onlyColumnInOneColumnDataFrame"])
。
在一种情况下,我必须选择具有 NA 或 null 或>=0 的记录。我可以通过仅使用合并功能而没有上述 3 个函数来做到这一点。
rdd.filter("coalesce(index_column, 1000) >= 0")