内存错误:在python中使用word2vec时,无法分配形状和数据类型为float32的数组



我正在尝试从维基百科文本数据中训练word2vec模型,为此我使用以下代码。

import logging
import os.path
import sys
import multiprocessing
from gensim.corpora import  WikiCorpus
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence

if __name__ == '__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s" % ' '.join(sys.argv))
# check and process input arguments
if len(sys.argv) < 3:
print (globals()['__doc__'])
sys.exit(1)
inp, outp = sys.argv[1:3]
model = Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
# trim unneeded model memory = use (much) less RAM
model.init_sims(replace=True)
model.save(outp)

但是在程序运行20分钟后,我收到以下错误

错误信息

理想情况下,您应该将错误文本粘贴到问题中,而不是屏幕截图。但是,我看到两个关键行:

<TIMESTAMP> : INFO : estimated required memory for 2372206 words and 400 dimensions: 8777162200 bytes
...
MemoryError: unable to allocate array with shape (2372206, 400) and data type float32

在对语料库进行一次传递后,模型已经了解了有多少个独特的单词将存活下来,这报告了必须分配的模型的大小:一个大约需要8777162200 bytes(约8.8GB(。但是,当尝试分配所需的矢量数组时,您会得到一个MemoryError,这表明没有足够的计算机可寻址内存 (RAM( 可用。

您可以:

  1. 在有更多内存的地方运行,也许是通过向现有系统添加 RAM ;或者
  2. 减少
  3. 所需的内存量,主要是通过减少要训练的唯一词向量的数量或它们的维度大小。

您可以通过将默认min_count=5参数增加到类似min_count=10min_count=20min_count=50来减少单词数。(你可能不需要超过200万个词向量——仅仅用几万个单词的词汇量就可以得到许多有趣的结果。

您还可以设置max_final_vocab值,以指定要保留的唯一单词的确切数量。例如,max_final_vocab=500000将只保留 500000 个最常用的单词,而忽略其余的单词。

降低size也会节省内存。size=300设置在词向量中很常见,并且会将内存需求减少四分之一。

一起使用size=300, max_final_vocab=500000应该将所需的内存减少到 2GB 以下。

我在处理熊猫数据帧时遇到了同样的问题,我通过将 float64 类型转换为 unint8 来解决它(当然对于那些不一定需要 float64 的类型,您可以尝试 float32 而不是 64(

data['label'] = data['label'].astype(np.uint8(

如果您遇到转换错误

data['label'] = data['label'].astype(np.uint8,errors='ignore'(

我不知道它在这种情况下是否有效,但是您可以使用SSD中的空间来增加系统中的虚拟RAM量。 当运行算法所需的 RAM 太高时,它在不同的项目中对我有用。

- 转到开始菜单,然后单击设置。 -类型性能。 - 选择调整窗口的外观和性能。 -在新窗口中,转到"高级"选项卡,然后在"虚拟内存"部分下,单击"更改"。 -在新窗口的底部,检查推荐值是什么以及它与当前分配的比较情况。 您可以超过建议值

在尝试了许多修复程序(例如修改虚拟内存和重新安装python(之后,对我有用的是将numpy dtype从默认的float64修改为float32。

最新更新