我正在尝试将一个非常大的JSON文件转换为较小的CSV文件。这是我正在使用的代码
data = pd.read_json(FILE + '.json', lines=True,
chunksize=2000000, orient='records', encoding='utf-8')
for i, chunk in enumerate(data):
chunk.to_csv('../data_subset/{}'.format(FILE + '_' + str(i) + '.csv'),
index=False)
然而,我在一些文件上得到了以下错误(大约10%(
_csv.Error: need to escape, but no escapechar set
当我在线搜索错误时,它显示了用户没有使用引号,因此需要分隔逗号的情况。然而,这不适用于此。
此外,错误可能发生在JSON文件的任何区块中,而不一定发生在文件的开头或结尾。
不确定这是否与错误有关,但JSON文件最初是从.zst
解压缩的。
编辑:我尝试过使用其他分隔符,如t
。
这不是这么简单吗?没有JSON很难说。
import pandas as pd
FILE = "data"
data = pd.read_json(FILE + '.json', lines=True,
chunksize=2000000, orient='records', encoding='utf-8')
for chunk in data:
chunk.to_csv(FILE + '.csv', sep='t', mode='a', header=False, index=False)