小贝子编程

pyspark中基于rdd的操作中键值的最大值

本文关键字：操作最大值键值 rdd pyspark python-3.x pyspark bigdata rdd
更新时间 : 2023-09-15
英文 : maximum of key value in rdd based operation in pyspark

我是基于rdd操作的新手。我试图理解一个关键值的最大值。我有一个这样的rdd：

RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)])

我必须根据键找到第二个元素的最大值。我希望看到这样的输出；

("A", 7, 5)
("B", 10, 6)
("C", 6, 10)

我试过newrdd = RDD.reduceByKey(lambda x: max(x[2]))。它输出一些错误。

在任何情况下，如果有人需要，我首先得到配对的rdd。

pairedrdd = RDD.map(lambda x: (x[0], x[2]))

则newrdd = pairedrdd.reduceByKey(lambda x, y: max(x,y))

lis = newrdd.collect()
for i in lis:
print(i)

最新更新

OpenGL/glm显示黑屏
我收到此警告标志数组索引 4001 已超过数组的末尾(包含 4001 个元素)
Spring Content 1.2.5 JPA(Postgres) .docx文件突变为zip归档
将十进制转换为十六进制，并确保它们是数字
为用户在登录页面后添加路由
动态变量导致错误，因为它没有正确分配
有可能从手机中获得指纹或人脸验证吗?
File IO From a JAR File
如何获得上下文在一个简单的类没有BuildContext在扑动
无法向 Tkinter 窗口添加背景
如何将RGB图像转换为灰度，但保持一种颜色?——Java
我应该在Docker内部还是在虚拟环境中安装气流?
属性错误： 'DataFrame'对象没有属性'assign'
如何在每次在DirectoryInfo.GetFiles()中加载新文件时执行操作?
HTML中的Javascript在Angular中不起作用
如何在firebase中调度大约每整小时运行一次的函数?
Uncaught TypeError:不能访问数组上字符串类型的偏移量
Switch(Select)在TRANSFORM和Select之间工作吗?
MySQL SELECT查询工作，但具有相同WHERE子句的UPDATE查询不工作
drupal 10 localhost站点:如何在安装和注销后访问登录页面
Flutter原生启动画面图像未出现- Flutter (Dart)
用另一个远程分支覆盖一个远程分支
邮递员说"The route api...could not be found."(拉拉维尔)
Firebase Messaging项目Google Analytics升级失败
在初始页面加载时未应用FacetWP查询顺序数组设置
GitHub邀请过期吗?
使用AWS秘密管理器端点的安全组
如何做基于名称和值的点击事件？
在容器和主机上创建具有相同Linux用户id的用户
Firebase身份验证在部署后不工作.扑动Web应用程序显示空白的白色屏幕

pyspark中基于rdd的操作中键值的最大值

相关内容

最新更新

热门标签：