复杂性理论 - 对相似文档进行分组 - complexity theory - group similar documents 小贝子编程网

这个问题与信息检索中的类似文档分组/聚类有关。

我有一套文件，D1，D2，.dn。对于每个文档，Di，我还有一组关键字，Di_k1，Di_k2，...，Di_km。两个文档之间的相似性，Di 和 Dj 由一个涉及相关关键字的函数给出，即 similarity（Di， Dj） = f（Di_K， Dj_K）。

现在，我想将这些文档中的每一个放入一组组/集群中，以便每个集群都包含相似类型的文档，给定集群中存在的元素之间的相似阈值。

一个简单的方法是查看每一对可能的页面，我显然想要避免，因为我拥有的文档数量相当大，以百万为单位。我正在阅读信息检索导论一书，但我没有发现任何可扩展的算法被提及。

我的问题是什么样的算法可以帮助我有效地对文档进行聚类？我对算法的计算复杂性特别感兴趣。

提前感谢您的任何指示。

好的，在我的头顶上，您可以使用基于语言模型的方法。首先，使用机器学习为每个可能的类构建一个LM。比如说，一个双字母LM。然后，对于您看到的每个新文档，计算所有类的 P（new document| class）。选择具有最大概率的那个。使用贝叶斯规则简化上述公式

一个放松集群中所有文档之间的相似性。选取一个任意中心，并与中心相似。

复杂性是

（n/

avgClusterSize） * （n/2）

复杂性理论 - 对相似文档进行分组