Pandas内存错误



我有一个相当大的数据集,大约5287657,大约有15列。我试图创建一个数据透视表,当试图创建DataFrame时,它给了我一个MemoryError 。下面是我看到的错误信息:

File "C:Python27libsite-packagespandascoreframe.py", line 411, in __init__
  arrays, columns = _to_arrays(data, columns, dtype=dtype)
File "C:Python27libsite-packagespandascoreframe.py", line 5472, in _to_arrays
  dtype=dtype)
File "C:Python27libsite-packagespandascoreframe.py", line 5500, in _list_to_arrays
  coerce_float=coerce_float)
File "C:Python27libsite-packagespandascoreframe.py", line 5555, in _convert_object_array
  for arr in content]
File "inference.pyx", line 393, in pandas.lib.maybe_convert_objects (pandaslib.c:32941)
MemoryError

在内存错误发生之前,我们可以使用Pandas操作的数据有任何限制吗?

使用read_csv来创建您的DataFrames,它已针对此任务进行了大量优化。

一种方法是分析数据块。另一种方法是加载随机的数据样本——我已经为此写了一篇短文——https://nikolaygrozev.wordpress.com/2015/06/16/fast-and-simple-sampling-in-pandas-when-loading-data-from-files/

最新更新