小贝子编程

筛选PySpark中列表中具有值的行

本文关键字：PySpark 列表筛选 list dataframe apache-spark pyspark filter
更新时间 : 2023-09-22
英文 : Filter rows that have value from the list in PySpark

我有一个值列表：

my_list = ["temp1","temp2", "temp10", "temp15"]

我正试图从列"中删除行；值"；具有此列表中的值。

我尝试过的代码：

res = res.filter((res.value == 'temp1') | (res.value == 'temp2') |
(res.value == 'temp10') | (res.value == 'temp15'))

但是，还有其他方法可以直接在列表中循环并进行筛选吗？(因为我的列表有30个元素(。

使用isin:

res = res.filter(res.value.isin(my_list))

示例：

res = spark.createDataFrame([('temp1',), ('x',)], ['value'])
res.show()
# +-----+
# |value|
# +-----+
# |temp1|
# |    x|
# +-----+
my_list = ["temp1", "temp2", "temp10", "temp15"]
res = res.filter(res.value.isin(my_list))
res.show()
# +-----+
# |value|
# +-----+
# |temp1|
# +-----+

最新更新

对象值没有显示在ejb中
插入或更新具有特定值的列
访问以前定义的变量时获取"NameError: name not defined"
读取 FSNF 内部的值在外部读取时会给出不同的值?
如何将向量中的相邻时间段连字符连接到分组字符串中
使用React时如何从python文件发送stdin和接收stdout ?
如何使guid的系统空值为空?
如何使用属于web应用程序的cli Go文件?
ABAP 7.4如何从一个tab填充另一个tab ?
如何加载日期时间值从一个字符串在FileDateTime格式在powershell?
'Microsoft.ACE.OLEDB.12.0'提供程序未在本地计算机上注册 VB.net
join，然后用linq查询选择list到list
执行python代码时获得的错误
为未读邮件和侧边栏导航设置neomut绑定问题
当mongoDb中另一个模型字段发生变化时，我如何更新模型字段?
MapsUI多边形块mapClick
如何在+page.ts中检索授权用户信息
如何在版本9中使用auth
反应角色不工作
这里flutter SDK:无法在离线模式下显示下载的地图
我正在尝试在 Flutter 中为一台设备订阅多个主题，但它不起作用
向新分支添加一个文件夹
如何获取按实例类型和日期划分的AWS EC2/Sagemaker实例使用时间?
在同一台主机上拥有多个Kafka分区的目的是什么
Unity停止使用字符串生成器编辑代码
JavaScript post请求错误422与FastApi python服务器
Java泛型歧义，问题是什么?
对象作为react组件是无效的.(找到:键为{}的对象).如果您打算呈现子集合，请使用数组代替 &g
去掉前因子，不改变其余的表达式
如何使用flutter实现女性body部位的选择?

筛选PySpark中列表中具有值的行

相关内容

最新更新

热门标签：