复杂性理论 - 对相似文档进行分组



这个问题与信息检索中的类似文档分组/聚类有关。

我有一套文件,D1,D2,.dn。对于每个文档,Di,我还有一组关键字,Di_k1,Di_k2,...,Di_km。两个文档之间的相似性,Di 和 Dj 由一个涉及相关关键字的函数给出,即 similarity(Di, Dj) = f(Di_K, Dj_K)。

现在,我想将这些文档中的每一个放入一组组/集群中,以便每个集群都包含相似类型的文档,给定集群中存在的元素之间的相似阈值。

一个简单的方法是查看每一对可能的页面,我显然想要避免,因为我拥有的文档数量相当大,以百万为单位。我正在阅读信息检索导论一书,但我没有发现任何可扩展的算法被提及。

我的问题是什么样的算法可以帮助我有效地对文档进行聚类?我对算法的计算复杂性特别感兴趣。

提前感谢您的任何指示。

好的,在我的头顶上,您可以使用基于语言模型的方法。首先,使用机器学习为每个可能的类构建一个LM。比如说,一个双字母LM。然后,对于您看到的每个新文档,计算所有类的 P(new document| class)。选择具有最大概率的那个。使用贝叶斯规则简化上述公式

一个放松集群中所有文档之间的相似性。 选取一个任意中心,并与中心相似。

复杂性是

(n/

avgClusterSize) * (n/2)

最新更新