使用python比较多个文本的相似性

所以我有大约300-500篇文本文章，我想比较它们的相似性和相关/重复的图——有些文章可能涉及相同的主题，但并不完全相同。所以为了解决这个问题，我开始用spaCy和相似函数进行实验。。现在的问题是相似性一次只比较两个文档，我想我需要循环每一个文本，并将其与另一个进行比较，这是一个非常缓慢和消耗内存的过程，有办法解决这个问题吗？

我不知道你将如何比较文本之间的相似性，但假设你将使用Jaccard或余弦相似性来比较每个文本。

然后，你可以使用本文提出的所有对相似性搜索，它在这里有一个实现。这种算法速度极快，尤其是对于如此小的数据量。

所有对搜索返回两个文档及其相似性，因此，如果您想找到相似文档的"家族"，则需要进一步应用类似DFS的图遍历。python元组上的堆栈溢出post使用邻接列表并提供O^(n+m(时间复杂性。

这里有一个例子，你可以使用all pairs算法，试图在reddit笑话子版块reddit中找到转发。

相关内容

最新更新

热门标签：