如何解释由PCA形成的群集可视化。假设我有13个变量A,B,C .....在我的数据集中,我想看看它们在无监督的学习中的性能。由于您无法可视化所有13个变量的群集。在这种情况下,我将使用PCA进行降低,然后绘制簇。我应该如何解释由PCA的两个维度形成的簇。
本质上,您将数据投影到2D中以可视化。但是,您将其投射到哪个2D空间?最能保留数据可变性的2D空间。本质上,2D空间中的每个轴代表原始空间中的(正交(方向,这是原始变量的(线性(组合。因此,您可以将结果解释为在空间中的群集的可视化,代表原始空间的最佳线性减少("最佳"意味着它最准确地保留了数据的差异(。因此,您可能希望群集成员在2D中彼此靠近,而不是非集群成员。但是,这不一定会发生。如果没有,则表明PCA维度降低并不能保留聚类算法发现的数据结构。(这并不一定意味着聚类失败,或者数据中没有固有的簇结构,它可能太非线性了,无法在投影下保存...或者可能根本不存在(。<<<<<<<<<<
有关更多直觉,请参阅此问题。