如何使用scala-spark将JSON数组拆分为多个JSON



我有一个数组JSON,格式如下

{
"marks": [
{
"subject": "Maths",
"mark": "80"
},
{
"subject": "Physics",
"mark": "70"
},
{
"subject": "Chemistry",
"mark": "60"
}
]
}

我需要将每个数组对象拆分为单独的JSON文件。有什么方法可以在火花壳中做到这一点吗。

您可以分解结构的marks数组,添加一个ID列,并编写按唯一ID列分区的JSON文件。

df.selectExpr("inline(marks)")
.withColumn("id", monotonically_increasing_id)
.repartition(col("id"))
.write
.partitionBy("id")
.json("output")

相关内容

  • 没有找到相关文章

最新更新