与相关变量聚类



我正在进行聚类分析。我想知道,包含相关变量是否可以知道,有很多变量。在这种情况下该怎么办?

预先感谢

首先,明显的方法:

  • 评估您是否需要所有它们,或者可以离开其中一些

  • 白色(Decorralate)您的数据通过执行PCA,这是K-Means的最佳实践

其次,您可能需要查看相关聚类,该试图识别数据集中显示出不同相关性的群集。当您的数据与全球相关性不相关时,美白将不会删除这些局部相关性。相关聚类旨在发现这些模式。

如果变量高度相关,建议删除它们。

否则聚类算法或链接方法,您通常遵循的一件事是找到点之间的距离。保持高度相关的变量只是给它们更多的,将重量增加一倍,以计算两个点之间的距离(因为所有变量均已归一化,效果通常是两倍)。

简而言之,变量强度会影响簇形成的增加。

最新更新