K-means文本文档聚类.如何计算内部相似度



我对数千个文档进行分类,其中向量分量是根据tf-idf计算的。我用余弦相似度。我对聚类中的单词进行了频率分析,以检查热门单词的差异。但我不确定如何在这类文档中计算相似度。

我将集群的内部相似度计算为每个文档到集群质心的相似度的平均值。如果我计算平均夫妇是基于小的数字。

外部相似度计算为所有对聚类质心的平均相似度

我算对了吗?它是基于我的内部相似性值的平均值,从0.2(5个集群和2000个文档)到0.35(20个集群和2000个文档)。这可能是由计算机科学中广泛面向文档引起的。Intra从0.3-0.7。结果可能是这样的?在网上我找到了各种各样的测量方法,不知道哪一种比我的想法更适合使用。我很绝望。

非常感谢你的建议!

使用除欧几里得平方以外的任何k-means都是有风险的。它可能会停止收敛,因为收敛证明依赖于均值和优化同一准则的距离分配。K-means最小化平方偏差,而不是距离!

对于可以处理任意距离函数(并保证收敛)的k-means变体,您需要查看k-medoids

最新更新