删除 pyspark 数据帧中的空行



当我将一个相当大的数据集(即维基百科的档案(加载到一个火花数据帧中时,我收到了以下错误:

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
... 1 more
Caused by: java.lang.NullPointerException
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)

删除 pyspark 数据帧中的空值的最佳方法是什么?

您可以使用na.drop()来删除包括Null值在内的所有行:

df.na.drop()

相关内容

  • 没有找到相关文章

最新更新