熊猫适用于大型csv文件



我有一个 3GB 的 csv 文件需要修改。我有一列要应用 lambda 函数(应该更改行的值(

到目前为止,我尝试的解决方案是将CSV读取为分块文件,但内存问题仍然存在

这是我到目前为止尝试过的:

dataframe = read_csv(file_path, iterator=True, chunksize=10000)
for chunk in dataframe:
   chunk['column_name'].apply(change_row_lambda_function)
dataframe.to_csv(result_file_path, sep=',')

试试这个:

# write header (column names)
read_csv(file_path, nrows=1).head(0).to_csv(result_file_path)
dataframe = read_csv(file_path, iterator=True, chunksize=10000)
for chunk in dataframe:
   chunk['column_name'] = chunk['column_name'].apply(change_row_lambda_function)
   chunk.to_csv(result_file_path, mode='a', header=None)

最新更新