小贝子编程

如何在PySpark中将RDD列表转换为RDD行

本文关键字：RDD 列表转换中将 PySpark apache-spark pyspark apache-spark-sql rdd
更新时间 : 2023-09-18
英文 : How to convert RDD list to RDD row in PySpark

rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])
# convert to as follows
..., ...
..., ...
# show result
rdd.collect()
[Row(col='a1'), Row(col='a2'), Row(col='a3'), Row(col='a4'), Row(col='a5'), ]

我知道在Java Spark中我们可以使用Row，但在PySpark中无法实现
那么，最合适的实施方式是什么？将其转换为dict，然后将其转换成rdd。

然后导入Row包。

rdd = spark.sparkContext.parallelize(['a1', 'a2', 'a3', 'a4', 'a5', ])
from pyspark.sql import Row 
rdd.map(lambda x: Row(x)).collect()
[<Row('a1')>, <Row('a2')>, <Row('a3')>, <Row('a4')>, <Row('a5')>]

最新更新

按字母顺序对数据框中的每一行排序
我如何覆盖一个文件，而使用该文件内的组件?
pm2如何知道加载什么?
MySQL查询使用group by子句返回的行数多于不使用group by子句返回的行数
从一个命令运行多个pom文件
Docker Swarm Access Container to Container on Published Port
TypeError: Cannot read properties of undefined in Vue
如何使函数相除?
当 npm 启动时"tailwindcss requires PostCSS 8" PostCSS 错误
如何在Mac Os上安装pyrealsense2 ?
如何将GitLab Operator部署到AWS EKS集群?
Swift - API返回包含不同类型的数组
如何检测敲击
在Java中，我可以让父类实现使用子类变量的方法吗?
ThreeJS:网格消失，如果我改变它的位置
Accordion在我的HTML页面中没有按预期工作
为什么这个积分很难近似?
c++ Valgrind文件描述符
模型类"is not in the trusted packages"
如何计算R中的折扣?
该算法的Python代码用于识别k均值聚类中的异常值
如何将指向 C++ 函数中分配的数组的指针转换为 Rust 中的数组
有效计数器，用于计数python中文本文件中的错误输入尝试
用r中的字符替换不同长度的数字字符串
云构建触发器不应该基于git提交消息创建docker映像
r语言 - 根据标准删除列表组件
无法从用户获取数字并将其作为javascript切片方法的参数传递
在JavaScript中对JSON进行排序
React Axios Delete不每次渲染
Spring boot, Spring Security, React -自定义过滤器认证不起作用

如何在PySpark中将RDD列表转换为RDD行

相关内容

最新更新

热门标签：