Gensim:word2vec和doc2vec有什么区别?

我有点新手，不是母语英语，所以很难理解Gensim的word2vec和doc2vec。

我认为两者都给了我一些与我要求的查询词最相似的单词，通过most_similar()(训练后)。

如何判断我必须使用哪种word2vec或doc2vec？

有人可以用简短的词解释差异，好吗？

谢谢。

在word2vec中，您可以训练查找词向量，然后在单词之间运行相似性查询。在doc2vec中，您可以标记文本，还可以获得标记向量。例如，您拥有来自不同作者的不同文档，并使用作者作为文档的标签。然后，在 doc2vec 训练之后，您可以使用相同的矢量算法对作者标签运行相似性查询：即谁是与AUTHOR_X最相似的作者？如果两个作者通常使用相同的单词，那么他们的向量会更接近。AUTHOR_X不是一个真正的词，它是你语料库的一部分，只是你确定的东西。因此，您无需使用它或手动将其插入文本中。Gensim 允许你在有或没有词向量的情况下训练 doc2vec(即，如果你只关心彼此之间的标签相似性)。

这里有一个关于word2vec基础知识的很好的介绍，以及他们如何以创新的方式使用doc2vec进行产品推荐(相关博客文章)。

如果您告诉我您要解决的问题，也许我可以建议哪种方法更合适。

相关内容

最新更新

热门标签：