这就是我迄今为止所做的
import os, json
import pandas as pd
path_to_json = 'C:\Users\Mohammed Al kinoon\Desktop\Research Data\VCDB-master\VCDB-master\data\json\validated'
json_files = [pos_json for pos_json in os.listdir(path_to_json) if pos_json.endswith('.json')]
print(json_files)
输出在此处输入图像描述
您需要将其放入编译器可以读取的格式中;
import json
#open the file
with open('filepathhere') as f:
data = json.load(f)
#reading file
print(data)
对于熊猫,我推荐以下几种:
data_frames = [pd.read_json(file) for file in json_files]
combined_df = pd.concat(data_frames).reset_index(drop=True)
这假设所有文件都遵循相同的格式(列/键(,并且可以容纳在内存中。如果它们遵循不同的格式,您应该将它们分成遵循相同格式的组。
如果它们太大而无法放入内存,我建议使用Spark/pyspark。