Pyspark中的 JSON格式化



我有一个json作为字符串存储在以下格式

{
'aaa':'',
'bbb':'',
'ccc':{
'ccc':[{dict of values}] //list of dictionaries
}
'ddd':'',
'eee':{
'eee':[{dict of values},{dict of values},{dict of values}] //list of dictionaries
}
}

我有将近7000万json字符串在这种格式。我想使用json_normalize从python熊猫,但由于记录计数,我想使用pyspark。有人可以指导什么是最好的方式来处理和存储这些json字符串在胶水表。我需要一个输出json中的所有键作为列,以及它们的数据作为行,我将它们存储为拼花文件。

在某些情况下,并非所有键都存在这种情况下,我需要在json字符串

的键中存储null或none样本输入:{"aaa"123","bbb":"asdncj","ccc":{"ccc"[{"ccc1"真的,"ccc2":"abcd","ccc3":"abcd"},{"ccc1"真的,"ccc2":"abcde","ccc3":"abcdee"},{"ccc1"真的,"ccc2":"abcdef","ccc3":"abcdefe"}]},"ddd":"aabcd","eee":{"eee"[{"eee1"123","eee2":"1","eee3":"hcudh"},{"eee1"2234","eee2":"1","eee3":"hhcb"}]}}

输出,我想有3个表,一个键aaa,bbb和ddd。第二个表用于CCC中的键,第三个表用于eee。

如果你不一定需要使用pyspark(例如,你只需要阅读它)。那么我建议使用内置的json模块。下面是一个使用的例子:

import json
with open("your_file.json", "r") as f:
raw_json = json.load(f)

您能详细说明json数据需要如何格式化吗?

最新更新