Cupy OutOfMemory错误,当尝试在内存映射模式下加载更大维度的.npy文件时,但np.load工作正常



我正在尝试使用内存映射模式在cupy中加载一些较大的.npy文件,但我一直遇到OutOfMemoryError.

我认为由于它是在内存映射模式下打开的,因此此操作应该不会占用太多内存,因为内存映射实际上并没有将整个数组加载到内存中。

我可以很好地使用 np.load 加载这些文件,这似乎只发生在 cupy.load 上。我的环境是Google Colab,配备Tesla K80 GPU。它有大约 12 GB CPU 内存、12 GB GPU 内存和 350 GB 磁盘空间。

下面是重现错误的最小示例:

import os
import numpy as np
import cupy
#Create .npy files. 
for i in range(4):
numpyMemmap = np.memmap( 'reg.memmap'+str(i), dtype='float32', mode='w+', shape=( 10000000 , 128 ))
np.save( 'reg.memmap'+str(i) , numpyMemmap )
del numpyMemmap
os.remove( 'reg.memmap'+str(i) )
# Check if they load correctly with np.load.
NPYmemmap = []
for i in range(4):
NPYmemmap.append( np.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )
del NPYmemmap
# Eventually results in memory error. 
CPYmemmap = []
for i in range(4):
print(i)
CPYmemmap.append( cupy.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )

输出:

0
1
/usr/local/lib/python3.6/dist-packages/cupy/creation/from_data.py:41: UserWarning: Using synchronous transfer as pinned memory (5120000000 bytes) could not be allocated. This generally occurs because of insufficient host memory. The original error was: cudaErrorMemoryAllocation: out of memory
return core.array(obj, dtype, copy, order, subok, ndmin)
2
3
---------------------------------------------------------------------------
OutOfMemoryError                          Traceback (most recent call last)
<ipython-input-4-b5c849e2adba> in <module>()
2 for i in range(4):
3     print(i)
----> 4     CPYmemmap.append( cupy.load( 'reg.memmap'+str(i)+'.npy' , mmap_mode = 'r+' )  )
1 frames
/usr/local/lib/python3.6/dist-packages/cupy/io/npz.py in load(file, mmap_mode)
47     obj = numpy.load(file, mmap_mode)
48     if isinstance(obj, numpy.ndarray):
---> 49         return cupy.array(obj)
50     elif isinstance(obj, numpy.lib.npyio.NpzFile):
51         return NpzFile(obj)
/usr/local/lib/python3.6/dist-packages/cupy/creation/from_data.py in array(obj, dtype, copy, order, subok, ndmin)
39 
40     """
---> 41     return core.array(obj, dtype, copy, order, subok, ndmin)
42 
43 
cupy/core/core.pyx in cupy.core.core.array()
cupy/core/core.pyx in cupy.core.core.array()
cupy/core/core.pyx in cupy.core.core.ndarray.__init__()
cupy/cuda/memory.pyx in cupy.cuda.memory.alloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.MemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.MemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.SingleDeviceMemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.SingleDeviceMemoryPool._malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory._try_malloc()
OutOfMemoryError: out of memory to allocate 5120000000 bytes (total 20480000000 bytes)

我也想知道这是否与谷歌Colab及其环境/GPU有关。

为了方便起见,这里有一个谷歌Colab笔记本的这个最小代码

https://colab.research.google.com/drive/12uPL-ZnKhGTJifZGVdTN7e8qBRRus4tA

内存映射时磁盘文件的numpy.load机制可能不需要将整个文件从磁盘加载到主机内存中。

但是,似乎cupy.load要求整个文件首先适合主机内存,然后放入设备内存中。

您的特定测试用例似乎正在创建 4 个磁盘文件,每个文件大小为 ~5GB。如果您有 12GB 的主机或设备内存,则这些内存不会全部适合。 因此,我希望事情在第三次文件加载时失败,如果不是更早的话。

可以将numpy.load机制与映射内存一起使用,然后有选择地将该数据的一部分移动到 GPU。 在这种情况下,GPU 上的数据大小仍将仅限于 GPU RAM,用于通常的东西,例如 cupy 数组。

即使您可以使用 CUDA 固定的"零拷贝"内存,它仍然会限制为主机内存大小(此处为 12GB(或更小。

最新更新