我想得到句子之间的余弦相似度。我已经用gensim测试了doc2vec,并用代码中给出的几个句子对其进行了训练。但我想使用每行一句话的文本文档来训练我的模型。如何使用带句子的文档?
如果您的文档已经是文本文件的形式,每行一句话,那么gensim(或其他地方(中包含的许多示例将展示如何处理这样的语料库。
例如,有一个介绍性的Doc2Vec教程笔记本与gensim
捆绑在其docs/notebooks
目录中,您也可以在项目github存储库中在线查看:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb
它的单元格(3(显示,单元格(4(使用一个函数逐行读取文件,并将其转换为模型所需的TaggedDocument
文本。