小贝子编程

过滤pyspark.带有正则表达式的RDD

本文关键字：RDD 正则表达式 pyspark 过滤 python apache-spark date pyspark rdd
更新时间 : 2023-09-21
英文 : Filter a pyspark.RDD with regex

我有一个pyspark。RDD包含我想过滤掉的日期。日期以这样的形式出现在我的RDD:
中

data.collect() = ["Nujabes","Hip Hop","04:45 16 October 2018"]

我一直在尝试通过regex过滤这些使用：

r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}"

但我做的方式不对：

data = data.filter(lambda x: x != r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}")

对于上面给定的data，所需的输出将是

data.collect() = ["Nujabes","Hip Hop"]

您可以使用Python正则表达式进行筛选：

data2 = data.filter(lambda x: not re.match(r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}", x))

最新更新

React search and filter: TypeError: setFilterFn不是一个函数
int数组在Java中不包含期望的值
Azure Portal ： Azure Cosmos Db Account ： Networking ： "There is already an operation in progress tha
未正确激活小数最大值验证
在arm模板输出中使用条件语句形成SQL DB连接字符串
c-操作系统互斥
c -在多应用程序CMake项目中，在静态库中包含特定于应用程序的头文件
为集成测试/@SpringBootTest提供bean时出现BeanDefinitionOverrideExceptio
c - Shift 1和乘法vs直接移位
需要帮助并行c++程序与OpenMP
r语言 - Lmer表示重复测量
我如何将下载的图片粘贴到我的计算机在我的flutter项目中的图像文件夹中?
不确定输入在下面的代码中是如何分解的
如何使用Rpc在统一光子(脚本不工作)
r语言 - 使用gtsummary在表中排序回归变量
如何构建一个事务安全的内存数据库?酸度是关键
ios TestFlight -邀请链接未到达
如何更改要下载的文件的名称?
如何在下一个js持久化布局中传递动态道具
如何操作axios响应并返回承诺?
在上下文提供程序中使用React query 4使查询无效会产生意想不到的结果
无法更新用于计数字母的对象属性编号(计数器)
在PowerShell中传递非文字脚本变量给Invoke-Sqlcmd错误
更改docker/superset中的密钥时出现问题
bs4不返回完整的HTML
重复第n个数字，直到第n个匹配，同时在模式上使用awk sub为这些数字添加前缀
我怎么能添加按钮后在Discord.py?
在Python中删除列表中某些单词的第一个字符
TypeORM获取id在jsonb数组中的数据
userAccountControl attribute for OpenLdap

过滤pyspark.带有正则表达式的RDD

相关内容

最新更新

热门标签：