我正在进行聚类分析。我想知道,包含相关变量是否可以知道,有很多变量。在这种情况下该怎么办?
预先感谢
首先,明显的方法:
-
评估您是否需要所有它们,或者可以离开其中一些
-
白色(Decorralate)您的数据通过执行PCA,这是K-Means的最佳实践
其次,您可能需要查看相关聚类,该试图识别数据集中显示出不同相关性的群集。当您的数据与全球相关性不相关时,美白将不会删除这些局部相关性。相关聚类旨在发现这些模式。
如果变量高度相关,建议删除它们。
否则聚类算法或链接方法,您通常遵循的一件事是找到点之间的距离。保持高度相关的变量只是给它们更多的,将重量增加一倍,以计算两个点之间的距离(因为所有变量均已归一化,效果通常是两倍)。
简而言之,变量强度会影响簇形成的增加。