Gensim - 使用GoogleNews向量模型的内存错误



当我使用GoogleNews-vectors-negative300时,我出现内存错误.bin或者尝试使用Gensim使用维基百科数据集语料库训练模型。1 GB)。我的系统中有 4GB 内存。有没有办法绕过这个。

我们可以将其托管在AWS等云服务上以获得更好的速度吗?

4GB对于该向量集来说非常紧凑;你应该有8GB或更多来加载完整的集合。或者,您可以使用可选的limit参数来load_word2vec_format()只加载一些向量。例如,limit=500000将只加载前 500,000 个(而不是完整的 300 万个)。由于该文件似乎将更频繁出现的令牌放在首位,因此这可能足以满足许多目的。

没有办法逃脱4G。 我可以在我的8G RAM Macbook Pro上加载和计算GoogleNews-vectors-negative300.bin。但是,当我在 AWS 上加载这个巨大的预训练向量时,我不得不将其升级到 16G RAM,因为它同时为 Web 应用程序提供服务。所以基本上如果你想在有安全边际的网络应用程序上使用它,你需要16G。

加载整个Google-News-Vector预训练模型真的很困难。我能够使用 Jupyter Notebook 在我的 8 GB Ubuntu 机器上加载大约 50,000(即总数的 1/60)。是的,正如预期的那样,内存/资源使用情况达到了顶峰。 因此,至少使用 16 GB 加载整个模型是安全的,否则使用limit=30000作为参数,如 @gojomo 所建议的那样。

最新更新