Gensim Doc2Vec从预训练的模型中训练更多文档

我试图用预先训练的模型使用新的标签文档(标记图(进行训练。

预验证的模型是训练有素的模型，具有文档，例如，具有label1_index的唯一ID，例如good_0，good_1 to good_999训练数据的总大小约为7000

现在，我想使用带有label2_index唯一ID的新文档训练预训练的模型，例如，bad_0，bad_1 ...训练数据的总大小约为1211

火车本身是成功的，没有任何错误，但是问题是每当我尝试使用" mostrongimilar'"时，它只会表明用良好标记的类似文档_...我希望在其中标记为bad_。

。

如果我从一开始就完全训练，它给了我我期望的答案 - 它会引起新给出的文档，类似于用好是坏标记的文档。

但是，上面的做法将从一开始就完全受过训练。

继续火车无法正常工作，还是我犯了一些错误？

Gensim Doc2Vec类始终可以通过train()添加额外的示例，但它只会在初始build_vocab()步骤中发现Word-Tokens和Document-Tags的工作词汇。因此，除非在build_vocab()期间可用单词/标签，否则它们将被忽略，如稍后未知。(单词从文本中静静地删除；标签未在模型中训练或记住。(

Word2Vec超级类 Doc2Vec借用了许多功能在其build_vocab()上具有更新的，更实验的参数，称为 update。如果设置为true，则对build_vocab()的调用将添加到而不是替换任何先前的词汇。但是，截至2018年2月，此选项尚未与Doc2Vec一起使用，并且实际上经常会导致内存错误崩溃。

，即使可以/何时可以使用它，提供渐进的培训示例也不一定是一个好主意。通过仅更新模型的部分 - 新示例行使的部分 - 总体模型可能会变得更糟，或者其向量使彼此之间的自洽程度降低。(这些密集插入模型的本质是，对 all 的优化示例会导致通常使用的矢量。仅训练一些子集使该模型朝着在该子集上的良好状态朝着好处，较早的例子可能成本。(

如果您需要新的示例才能成为most_similar()结果的一部分，则可能需要在Doc2Vec之外创建自己的单独的媒介。当您推断新文本的新向量时，可以将它们添加到外部集合中，然后实现自己的most_similar()(使用Gensim代码作为模型(来搜索此扩展的向量集，而不仅仅是固定集由初始批量Doc2Vec培训创建。

相关内容

最新更新

热门标签：