小贝子编程

删除 pyspark 数据帧中的空行

本文关键字：pyspark 数据帧删除 dataframe null pyspark
更新时间 : 2023-09-17
英文 : Remove null rows in pyspark dataframe

当我将一个相当大的数据集(即维基百科的档案(加载到一个火花数据帧中时，我收到了以下错误：

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
... 1 more
Caused by: java.lang.NullPointerException
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)

删除 pyspark 数据帧中的空值的最佳方法是什么？

您可以使用na.drop()来删除包括Null值在内的所有行：

df.na.drop()

最新更新

Facebook 登录 Django Rest Auth 给出"non_field_errors" ： [ "Incorrect value" ]
JFugue:获取音乐字符串时长
如何将RGB图像转换为NIR+RGB图像?
Go中的Azure JWT验证不起作用
加固跨站脚本:DOM - jQuery修复
如何在vue3中自定义输入字段中获得默认道具?
如何在swiftui中使用NavigationView从外部响应函数导航视图?
使用值 _T( " " ) 和 CString 变量
有一种方法来检查所需的角色在表单数据?
结构JSON到一个' attrs '类与额外的字段使用' cattrs ' ?
使用扑动的设备音频管理
从字典中提取最小x值键
Cplex - 第一个要访问的车站必须是不符合下限和上限标准的车站
HMAIL服务器没有收到来自本地主机的邮件
使用来自 ngrx 存储选择器的可观察量的自定义异步验证器不会返回 'null'，除非我输入 take(1) 运算符
在这种情况下如何更新有状态小部件的状态?
不要在 Wordpress 上的 save_post 中自动保存期间运行代码
关闭下拉列表时如何从中删除 .active 类<div>？ jquery
所选组件不应该显示菜单
给定"显示变量，如"%version%;"的输出，我如何确定我应该使用哪种语法？
如何处理来自消息体API响应的GZIP字符串?
OAuth2和PKCE - Code验证器无效
GCP 的 CloudSQL - 重新创建现有的只读副本
当解引用指针OCaml时，匹配总是成功的
如何使用cx_Oracle解析oracle过程中的TAB TYPE OUT
如何列出numpy array中的最低值
我如何在脚本中定义tracery来生成随机句子?
如何使用yapf保持参数都在一行?
试图在底部填充溢出
如何使用Matplotlib在圆中绘制未定义数量的随机点

删除 pyspark 数据帧中的空行

相关内容

最新更新

热门标签：