无论您设置了low_memory
、true
还是false
,我都会得到内存错误。无法为具有形状(4357、415796(和数据类型float64 的数组分配13.5 GiB
low_memory=True
只会在解析时帮助减少内存使用,对文件的总大小没有任何帮助。
要处理这么大的文件,需要分块处理。
如果您的某些计算需要同时处理整个文件,则需要查看其他选项,如pyspark
或dask
。
# IIUC, this should approx. be chunks of ~1.2GB:
with pd.read_csv('file.csv', chunksize=400) as reader:
for chunk in reader:
# Do stuff with each chunk.