如何解决读取数据集时出现的内存问题



无论您设置了low_memorytrue还是false,我都会得到内存错误。无法为具有形状(4357、415796(和数据类型float64 的数组分配13.5 GiB

low_memory=True只会在解析时帮助减少内存使用,对文件的总大小没有任何帮助。

要处理这么大的文件,需要分块处理。

如果您的某些计算需要同时处理整个文件,则需要查看其他选项,如pysparkdask

# IIUC, this should approx. be chunks of ~1.2GB:
with pd.read_csv('file.csv', chunksize=400) as reader:
for chunk in reader:
# Do stuff with each chunk.

最新更新