如何导入带有句子的文档来训练doc2vec模型



我想得到句子之间的余弦相似度。我已经用gensim测试了doc2vec,并用代码中给出的几个句子对其进行了训练。但我想使用每行一句话的文本文档来训练我的模型。如何使用带句子的文档?

如果您的文档已经是文本文件的形式,每行一句话,那么gensim(或其他地方(中包含的许多示例将展示如何处理这样的语料库。

例如,有一个介绍性的Doc2Vec教程笔记本与gensim捆绑在其docs/notebooks目录中,您也可以在项目github存储库中在线查看:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

它的单元格(3(显示,单元格(4(使用一个函数逐行读取文件,并将其转换为模型所需的TaggedDocument文本。

最新更新