K-means聚类:如何确定哪些变量会影响聚类

我正在对86个不同的变量进行聚类分析，我使用主成分分析将其减少到19个PC。使用sk learn的K-means聚类算法，我得到了10个聚类。然而，我不知道是哪些变量负责分离这些集群。我如何确定哪些变量负责某个集群。

PCA创建了主成分，它本质上可以被认为是底层特征的一些线性组合，以帮助将维度从86个特征降低到19"；主要成分"；方差最大。

为了了解这些主要成分基于什么样的判别特征，你必须深入了解PCA在幕后的作用。简单地说，PCA对86个特征的相关矩阵进行本征分解。然后，它将数据投影到一个新的向量空间中，该空间由19个具有最高特征值的特征向量组成。

为了得到PCA认为的什么特征的粗略估计；本金"；，您可以手动对相关矩阵进行本征分解，并查看哪些特征具有最高的本征值。然而，请记住，这不会是1-1的相关性，因为PCA使用这86个特征的一些线性组合来降低维度。然而，本征分解可能能够帮助您更好地理解数据。

此外，如果你感兴趣，这里有一个很好的PCA解释，以及它与本征分解的关系：https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues

相关内容

最新更新

热门标签：