小贝子编程

根据列值筛选RDD

本文关键字：筛选 RDD apache-spark pyspark apache-spark-sql rdd
更新时间 : 2023-09-21
英文 : Filtering RDD based on column values

我在spark中有一个文件，其中包含以下表数据

房产ID |位置|价格|卧室|浴室

我已经阅读这个文件作为rdd使用：-

a = sc.textFile("/FileStore/tables/realestate.txt")

现在我需要找到

b。创建具有3间卧室的房产ID的RDD

c。创建另一个具有至少2间浴室的物业ID的RDD

如何在rdd中选择一列并根据列值筛选表。

您可以使用lambda函数filterRDD：

b = a.filter(lambda r: int(r.split('|')[3]) == 3 if r.split('|')[0] != 'Property ID' else True)
c = a.filter(lambda r: int(r.split('|')[4]) >= 2 if r.split('|')[0] != 'Property ID' else True)

最新更新

使用# id更改HTML模板中的JS代码值
Regex语句，用于捕获最外层括号内的元素
如何在用户猜测/输入后更改占位符?
是否有一种方法来创建一个DataFrame从特定的颜色编码行是在谷歌工作表?(长颈鹿和熊猫)
AWS Glue: SCRAM认证需要libpq版本10或以上[Using CockroachDB]
如何使用信号协议加密/解密?
pandas dataframe在特定列中的列表值满足一定条件时获取行
&16 在此 MySQL 查询中做什么？
是否有办法使类名作为一个变量?．. Parent_class *p_derived = new classnameher
错误:未能将一些参考推入' path '
我如何让matplotlib正确格式化这些datetime64对象?
如何删除重复的行基于多列值在亚马逊雅典娜?
无法"npm install"项目
Applescript在文件夹中搜索带有关键字的照片
在CocoaPods任务中运行管道时出错
我是如何设法在通常的 conf 设置之外定义一个 XAMPP Apache 额外目录的？找不到证据
我的主要分支是错误的，我想用另一个分支重写它，我怎么能做这样的事情?
防止在for循环中展开的函数的形参中展开变量
自动伸缩组实例未在ALB上注册
我有一个问题与基础SQLITE3，如何解决它?
react useEffect(): Hello只记录一次
ViewBinding within Broadcast Receiver
为什么x输入事件不再被Tk事件回调处理(Ubuntu 22.04, Tk 8.6.12)?
如何降低MSAA内存使用率?
Apache Flink -匹配具有相同值的字段
如何在jquery中添加?
如何在AVAudioPCMBuffer上做偏移?
定义函数以返回类的属性需要什么？
Php对象组数组
如何用Angular/Javascript创建工作流图

根据列值筛选RDD

相关内容

最新更新

热门标签：