我有点新手,不是母语英语,所以很难理解Gensim
的word2vec
和doc2vec
。
我认为两者都给了我一些与我要求的查询词最相似的单词,通过most_similar()
(训练后)。
如何判断我必须使用哪种word2vec
或doc2vec
?
有人可以用简短的词解释差异,好吗?
谢谢。
在word2vec中,您可以训练查找词向量,然后在单词之间运行相似性查询。在doc2vec中,您可以标记文本,还可以获得标记向量。例如,您拥有来自不同作者的不同文档,并使用作者作为文档的标签。然后,在 doc2vec 训练之后,您可以使用相同的矢量算法对作者标签运行相似性查询:即谁是与AUTHOR_X
最相似的作者?如果两个作者通常使用相同的单词,那么他们的向量会更接近。AUTHOR_X
不是一个真正的词,它是你语料库的一部分,只是你确定的东西。因此,您无需使用它或手动将其插入文本中。Gensim 允许你在有或没有词向量的情况下训练 doc2vec(即,如果你只关心彼此之间的标签相似性)。
这里有一个关于word2vec基础知识的很好的介绍,以及他们如何以创新的方式使用doc2vec进行产品推荐(相关博客文章)。
如果您告诉我您要解决的问题,也许我可以建议哪种方法更合适。