小贝子编程

Carrot2 文档的相似性以及 tf-idf 矩阵中的有序文档索引如何

本文关键字：文档索引相似性 tf-idf Carrot2 matrix indexing document documents carrot2
更新时间 : 2023-08-30
英文 : Carrot2 documents similarity and how are the ordered documents indexes in the tf-idf matrix?

我正在尝试使用胡萝卜确定两个文档之间的相似性。是否有可能直接从框架中获得这种相似性？

此外，我一直在研究 tf-idf 矩阵，并意识到行对应于词干的所有单词和文档的列。但是，如何识别哪个文档对应于哪个列？

例如，假设一个文档列表，列顺序将是列表中文档的顺序？

前任：

列表文档 = {doc1， doc2， doc3}

和

列 0 = 文档 1列伦 1 = 文档 2

。

这是吗？

Carrot2 不使用文档-文档相似性的传统概念，因此您不会在那里找到它。您确实可以使用术语-文档矩阵来计算各种文档-文档相似性。

假设术语文档矩阵的列与输入列表中的文档顺序相同，这是正确的。您可以检查源代码以消除任何其他疑问。

相关内容