使用python比较多个文本的相似性



所以我有大约300-500篇文本文章,我想比较它们的相似性和相关/重复的图——有些文章可能涉及相同的主题,但并不完全相同。所以为了解决这个问题,我开始用spaCy和相似函数进行实验。。现在的问题是相似性一次只比较两个文档,我想我需要循环每一个文本,并将其与另一个进行比较,这是一个非常缓慢和消耗内存的过程,有办法解决这个问题吗?

我不知道你将如何比较文本之间的相似性,但假设你将使用Jaccard或余弦相似性来比较每个文本。

然后,你可以使用本文提出的所有对相似性搜索,它在这里有一个实现。这种算法速度极快,尤其是对于如此小的数据量。

所有对搜索返回两个文档及其相似性,因此,如果您想找到相似文档的"家族",则需要进一步应用类似DFS的图遍历。python元组上的堆栈溢出post使用邻接列表并提供O^(n+m(时间复杂性。

这里有一个例子,你可以使用all pairs算法,试图在reddit笑话子版块reddit中找到转发。

相关内容

  • 没有找到相关文章

最新更新