微调预训练的Word2Vec Google新闻



我目前正在使用在Google新闻语料库中训练的Word2Vec模型(从此处)由于直到2013年才对此进行培训,因此我需要根据2013年以后的新闻来更新矢量,并在词汇中添加新单词。

假设我在2013年之后有新的新闻语料库。我可以重新训练或微调或更新Google News Word2Vec模型吗?可以使用Gensim完成吗?可以使用fastText吗?

您可以看一下:https://github.com/facebookresearch/fasttext/pull/423

它做您想要的完全相同的事情:这是链接所说的:

逐步训练分类模型或单词向量模型。

./fastText [监督|Skipgram |CBOW] -Input train.data -inputmodel trained.model.bin -output重新训练[其他选项] -Incr

-incr代表增量训练。

训练单词嵌入时,可以每次使用所有数据或仅在新数据上从头开始使用。对于分类,可以将其从头开始训练,并使用所有数据嵌入预训练的单词,或者只有新数据,而不会更改嵌入单词。

增量培训实际上意味着,使用以前获得的数据完成培训模型,并使用我们获得的较新数据,而不是从头开始。

是的。我最近也一直在研究这个。

  • word2vec 参考
  • 手套参考

编辑:手套在训练时在内存中具有计算和存储co-occurence矩阵的开销。培训word2vec相对容易

最新更新