Gensim:word2vec和doc2vec有什么区别?



我有点新手,不是母语英语,所以很难理解Gensimword2vecdoc2vec

我认为两者都给了我一些与我要求的查询词最相似的单词,通过most_similar()(训练后)。

如何判断我必须使用哪种word2vecdoc2vec

有人可以用简短的词解释差异,好吗?

谢谢。

在word2vec中,您可以训练查找词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获得标记向量。例如,您拥有来自不同作者的不同文档,并使用作者作为文档的标签。然后,在 doc2vec 训练之后,您可以使用相同的矢量算法对作者标签运行相似性查询:即谁是与AUTHOR_X最相似的作者?如果两个作者通常使用相同的单词,那么他们的向量会更接近。AUTHOR_X不是一个真正的词,它是你语料库的一部分,只是你确定的东西。因此,您无需使用它或手动将其插入文本中。Gensim 允许你在有或没有词向量的情况下训练 doc2vec(即,如果你只关心彼此之间的标签相似性)。

这里有一个关于word2vec基础知识的很好的介绍,以及他们如何以创新的方式使用doc2vec进行产品推荐(相关博客文章)。

如果您告诉我您要解决的问题,也许我可以建议哪种方法更合适。

最新更新