R:聚类验证方法(混合数据)



>我使用两种聚类方法k-prototype和PAM对包含数值和分类特征(来自UCI的心脏数据集)的聚类混合数据集

我的问题是:如何验证聚类的结果?

我在R中发现了不同的方法,例如Rand Index,SSE,Purity,clValid,pvclust,所有这些都适用于数字数据。

在混合数据的情况下可以使用任何方法

是的,您可以将聚类结果与CV指数进行比较。欲了解更多信息,您可以阅读此内容 简历指数 CV 公式包含用于分类属性的 CU(类别实用程序)和用于数值属性的变量

您仍然可以使用调整后的兰特指数。此索引仅比较两个分区。分区是从分类要素还是连续要素构建并不重要

你特别研究多少观察(n)和维度(d)? 可能你处于n>>d的情况下,但最近d>>n是一个热门话题。

变量选择是需要事先完成的事情。检查特征相关性,这可能会影响检测到的聚类数。如果要素是相关的,并且它们恰好是线性的,则可以使用梯度而不是两个变量。

您的问题没有绝对的答案。因此,存在许多方法。聚类本质上是探索性的。您对数据了解得越多,就越能更好地设计测试。

需要定义要测试的内容:分区的稳定性或群集配方的稳定性。处理这些问题有不同的方法。对于第一个,重采样是一个关键,对于第二个,通常使用比较指数来衡量在某个分区之外遗漏了多少观测值。

推荐阅读:

[1]梅拉,M. (2016).比较聚类的条件。聚类分析手册。C.亨尼格,M.梅拉,F.穆尔塔格和R.罗奇:619-635。

[2]莱施,F. (2016).探索聚类稳定性的重采样方法。聚类分析手册。C.亨尼格,M.梅拉,F.穆尔塔格和R.罗奇:637-652。

最新更新