小贝子编程

Pyspark RDD -过滤和未过滤的数据

本文关键字：过滤数据 Pyspark RDD apache-spark pyspark rdd
更新时间 : 2023-09-22
英文 : Pyspark RDD - both filtered and unfiltered data

我从spark会话创建了一个RDD。我的数据是syslog格式的。我想将前缀为<128>1的行过滤为有效行，将不满足条件的行过滤为无效行。

rdd2=rdd1.filter(lambda rec: rec.startswith('<128>1') or rec.startswith('<134>1'))

我如何得到无效的行，以及在同一函数?参考:https://sparkbyexamples.com/pyspark/pyspark-where-filter/高阶函数火花滤波器

您可以使用有效条件的否定(not):

valid = rdd1.filter(lambda rec: rec.startswith('<128>1') or rec.startswith('<134>1'))
invalid = rdd1.filter(lambda rec: not(rec.startswith('<128>1') or rec.startswith('<134>1')))

最新更新

在使用相同group_id的kafka消费者中使用assign而不是subscribe是否有影响? &
让谷歌的见解清楚地表明，我的网站上有不止一个页面
我无法在反应中删除 html 标签
获取/读取邮件消息并输出纯文本
显示:表格单元格与行号不对齐
如何使用Toga应用访问Android通知
访问create_template_view api时出现INVALID_REQUEST_BODY错误
使用预处理器条件生成C/ c++变量名
此处映射计算路线API上的错误414
Oracle数据库中的并行提示
woocommerce在每个类别结帐后自定义重定向
是否有可能在AWS中设置一个webhook来监控特定的电子邮件地址，并将接收到的电子邮件信息传递给Lambda?<
仅使用numpy实现CNN时出错
过程展开不规则时间序列
插入多个带别名的外键
如何从API响应中提取Array
WebLogic 14c -性能调优测试
Google-Drive-API文件没有使用FORM_ID找到
尝试创建一个伸缩盒容器，但它不会创建盒子并显示文本
是否有一种方法(最好是R)从BirdLife数据区自动提取信息?
为什么process.env.JWT_EXPIRE未被发现?js筑巢
Python记录器没有从根记录器继承level
是什么导致了python的f字符串中"f "{a}""与"f "{a=}""之间的差异？
标题库使用介子
打印偶数的"count"，而循环使用 if
为什么我要将数组转换为对象
通过共享操作符将可连接的Flux转换为Hot不工作
从演示文稿中删除所有空的/未使用的形状
破坏错误取决于变量的顺序
c -试图编写一个MIPS汇编程序

Pyspark RDD -过滤和未过滤的数据

相关内容

最新更新

热门标签：