我有一个数组JSON,格式如下
{
"marks": [
{
"subject": "Maths",
"mark": "80"
},
{
"subject": "Physics",
"mark": "70"
},
{
"subject": "Chemistry",
"mark": "60"
}
]
}
我需要将每个数组对象拆分为单独的JSON文件。有什么方法可以在火花壳中做到这一点吗。
您可以分解结构的marks数组,添加一个ID列,并编写按唯一ID列分区的JSON文件。
df.selectExpr("inline(marks)")
.withColumn("id", monotonically_increasing_id)
.repartition(col("id"))
.write
.partitionBy("id")
.json("output")