小贝子编程

如何导入带有句子的文档来训练doc2vec模型

本文关键字：文档模型 doc2vec 句子何导入导入 python gensim cosine-similarity doc2vec sentence-similarity
更新时间 : 2023-09-18
英文 : How to import a document with sentences to train a doc2vec model?

我想得到句子之间的余弦相似度。我已经用gensim测试了doc2vec，并用代码中给出的几个句子对其进行了训练。但我想使用每行一句话的文本文档来训练我的模型。如何使用带句子的文档？

如果您的文档已经是文本文件的形式，每行一句话，那么gensim(或其他地方(中包含的许多示例将展示如何处理这样的语料库。

例如，有一个介绍性的Doc2Vec教程笔记本与gensim捆绑在其docs/notebooks目录中，您也可以在项目github存储库中在线查看：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

它的单元格(3(显示，单元格(4(使用一个函数逐行读取文件，并将其转换为模型所需的TaggedDocument文本。

相关内容