小贝子编程

PySpark 将对象数组(JSON 格式)解析为一列 df

本文关键字：一列 df 数组 JSON 格式 PySpark 对象 json apache-spark pyspark
更新时间 : 2023-09-15
英文 : PySpark parse array of objects (JSON format) to one column df

我有一个嵌套的JSON对象数组，如下所示：

[
{
"a": 1,
"n": {}
}
]

我想用一列将此 JSON 文件(多行(读入 Spark 数据帧。其中列具有字符串类型并包含 JSON 对象：

+----------+
|   json   |
+----------+
| {"a": 1, |
| "n": {}} |
+----------+

我尝试执行以下操作：

schema = StructType([StructField("json", StringType(), True)])
spark.read.json('test.json', multiLine=True).show()

但它没有用。在 PySpark 中是否有任何选项可以做到这一点？

自己找到了解决方案：

json_schema = StructType([
StructField("json", StringType(), True)
])
df.toJSON().map(lambda x: [x]).toDF(schema=json_schema).show()

最新更新

如何得到拆分字符后的单词
在列表框之间移动项
设置 SKEmitterNode 的 'targetNode' 会导致奇怪的 'zPosition' 行为
我无法在斐波那契数列 python 中加强术语
用Jest测试使用jquery获取数据的异步函数
c#与HTML敏捷包不能得到div类的值
Python 中的 OOP 层次结构
我如何动画下拉菜单的高度使用顺风css
无法从字符串比较失败的字符串中删除"—"
无法获取熊猫数据帧中的第一列值
Odoo添加按钮应该重定向到我的模块视图
r语言 - 我如何得到比例在数据表没有组号重复?
无法使用 conda env 导入 OCI 笔记本会话中的模型配置详细信息
c - while循环中VSC的分段错误
无法将url数据获取到模型类中
如何将DataGridTextColumn绑定到WinUI3中绑定的对象中的方法?
错误在cobol程序上打开VB文件来处理XML文件
while循环在python中没有爆发
yii2查询具有多个非和或的数据提供程序
Libgdx:渲染方法
Pycharm 错误：预期类型 [类名] 改为"str"
运行我的代码时出现错误:未知的自定义元素
在Selenium 4中使用Behat和Mink Selenium2驱动程序为Microsoft Edge浏览器运行测试
宽度未知的可变列数
我必须在.env文件中存储哨兵公钥吗?
Mongodb子文档没有自动生成对象id Typegoose/ mongoose
类型中构造函数的参数 0 需要找不到类型为"org.hibernate.SessionFactory"的 Bean
根据r中的日期和小时每隔15分钟聚合数据
如何解决关于Optuna存储的错误?
c语言中OO继承的混叠问题

PySpark 将对象数组(JSON 格式)解析为一列 df

相关内容

最新更新

热门标签：