R:聚类验证方法(混合数据)

>我使用两种聚类方法k-prototype和PAM对包含数值和分类特征(来自UCI的心脏数据集)的聚类混合数据集

我的问题是：如何验证聚类的结果？

我在R中发现了不同的方法，例如Rand Index，SSE，Purity，clValid，pvclust，所有这些都适用于数字数据。

在混合数据的情况下可以使用任何方法

是的，您可以将聚类结果与CV指数进行比较。欲了解更多信息，您可以阅读此内容简历指数 CV 公式包含用于分类属性的 CU(类别实用程序)和用于数值属性的变量

您仍然可以使用调整后的兰特指数。此索引仅比较两个分区。分区是从分类要素还是连续要素构建并不重要

你特别研究多少观察(n)和维度(d)？可能你处于n>>d的情况下，但最近d>>n是一个热门话题。

变量选择是需要事先完成的事情。检查特征相关性，这可能会影响检测到的聚类数。如果要素是相关的，并且它们恰好是线性的，则可以使用梯度而不是两个变量。

您的问题没有绝对的答案。因此，存在许多方法。聚类本质上是探索性的。您对数据了解得越多，就越能更好地设计测试。

需要定义要测试的内容：分区的稳定性或群集配方的稳定性。处理这些问题有不同的方法。对于第一个，重采样是一个关键，对于第二个，通常使用比较指数来衡量在某个分区之外遗漏了多少观测值。

相关内容