如何在没有基本事实标签的情况下分析聚类的完整性



我正在对数据进行聚类(尝试多种算法(,并试图评估每个算法产生的聚类的一致性/完整性。我没有任何基本事实标签,这排除了分析性能的一些指标。

到目前为止,我一直在使用Silhouette的分数以及calinski harabaz的分数(来自sklearn(。然而,有了这些分数,我只能比较聚类的完整性,如果我从一个算法产生的标签建议至少有2个聚类——但我的一些算法建议一个聚类是最可靠的。

因此,如果你没有任何基本事实标签,你如何评估通过算法提出的聚类是否比所有数据只分配在一个聚类中更好?

不要仅仅依赖于一些启发式方法,这是有人针对一个非常不同的问题提出的。

集群的关键是仔细考虑您正在处理的问题。提出数据的正确方法是什么?如何缩放(或不缩放(?如何测量两个记录的相似性,使其量化对您的领域有意义的东西。

这不是关于选择正确的算法;你的任务是进行数学运算,将你的领域问题与算法的作用联系起来。不要把它当作一个黑盒子。根据评估步骤选择方法是行不通的:已经太晚了;您可能已经在预处理中做出了一些错误的决定,使用了错误的距离、缩放和其他参数。

如果您正在寻找除您提到的指标之外的更多无监督聚类指标,您(为了更确定您的发现(可以尝试以下指标:

  • 差距统计:您可以在这里查看论文,这里是一个实现
  • Dunn索引:您可以在此处和此处阅读更多信息。我在这里和这里找到了两个Python实现
  • Davies-Bouldin指数:您可以在此处、此处和此处阅读有关该指标的更多信息。我在这里和这里找到了一个实现

相关内容

最新更新