尝试用json格式对我的数据进行分析.我下面的代码到目前为止我的问题是如何加入我的所有数据,请帮助我是python的新手



这就是我迄今为止所做的

import os, json
import pandas as pd
path_to_json = 'C:\Users\Mohammed Al kinoon\Desktop\Research Data\VCDB-master\VCDB-master\data\json\validated'
json_files = [pos_json for pos_json in os.listdir(path_to_json) if pos_json.endswith('.json')]
print(json_files)

输出在此处输入图像描述

您需要将其放入编译器可以读取的格式中;

import json 
#open the file
with open('filepathhere') as f:
data = json.load(f)
#reading file
print(data)

对于熊猫,我推荐以下几种:

data_frames = [pd.read_json(file) for file in json_files]
combined_df = pd.concat(data_frames).reset_index(drop=True)

这假设所有文件都遵循相同的格式(列/键(,并且可以容纳在内存中。如果它们遵循不同的格式,您应该将它们分成遵循相同格式的组。

如果它们太大而无法放入内存,我建议使用Spark/pyspark。

最新更新