小贝子编程

在 RDD 的筛选器转换中未获得预期的结果

本文关键字：结果 RDD 筛选转换 apache-spark pyspark jupyter-notebook rdd
更新时间 : 2023-09-14
英文 : Not getting the expected result in filter transformation for RDD

我已经加载了一个文本文件并应用了转换(过滤器(，但没有得到预期的结果.code，结果如下

stopwords = ['MP','UP']
2
rdd3 = ARDD.filter(lambda x: x not in stopwords)
3
rdd3.take(10)
(2) Spark Jobs
Out[22]: ['MP , rajasthan, UP , Kashmir , delhi , haryana , punjab ']

您的问题似乎是ARDD包含一个包含所有单词的字符串元素。尝试以不同的方式加载数据，以便逐行加载一个单词，过滤器将起作用。

ARDD = sc.parallelize(['MP' , 'rajasthan', 'UP' , 'Kashmir' , 'delhi' , 'haryana' , 'punjab'])
stopwords = ['MP','UP']
rdd3 = ARDD.filter(lambda x: x not in stopwords)
rdd3.take(10)
Out[10]: ['rajasthan', 'Kashmir', 'delhi', 'haryana', 'punjab']

最新更新

使用# id更改HTML模板中的JS代码值
Regex语句，用于捕获最外层括号内的元素
如何在用户猜测/输入后更改占位符?
是否有一种方法来创建一个DataFrame从特定的颜色编码行是在谷歌工作表?(长颈鹿和熊猫)
AWS Glue: SCRAM认证需要libpq版本10或以上[Using CockroachDB]
如何使用信号协议加密/解密?
pandas dataframe在特定列中的列表值满足一定条件时获取行
&16 在此 MySQL 查询中做什么？
是否有办法使类名作为一个变量?．. Parent_class *p_derived = new classnameher
错误:未能将一些参考推入' path '
我如何让matplotlib正确格式化这些datetime64对象?
如何删除重复的行基于多列值在亚马逊雅典娜?
无法"npm install"项目
Applescript在文件夹中搜索带有关键字的照片
在CocoaPods任务中运行管道时出错
我是如何设法在通常的 conf 设置之外定义一个 XAMPP Apache 额外目录的？找不到证据
我的主要分支是错误的，我想用另一个分支重写它，我怎么能做这样的事情?
防止在for循环中展开的函数的形参中展开变量
自动伸缩组实例未在ALB上注册
我有一个问题与基础SQLITE3，如何解决它?
react useEffect(): Hello只记录一次
ViewBinding within Broadcast Receiver
为什么x输入事件不再被Tk事件回调处理(Ubuntu 22.04, Tk 8.6.12)?
如何降低MSAA内存使用率?
Apache Flink -匹配具有相同值的字段
如何在jquery中添加?
如何在AVAudioPCMBuffer上做偏移?
定义函数以返回类的属性需要什么？
Php对象组数组
如何用Angular/Javascript创建工作流图

在 RDD 的筛选器转换中未获得预期的结果

相关内容

最新更新

热门标签：