我对我的数据进行了主成分分析,我有4个主成分。然而,用主要成分来解释我的结果是非常困难的。因此,我想知道我是否可以做一个事后分析,取PC1中方差最高的变量(比如X1(和PC2中方差最高(比如X2(,用结果变量y进行回归分析,以测试它们的相关性?(即lm(Y~X1+X2((
以下是一个示例:我有4个自变量:记忆测试、认知测试、注意力测试和处理速度测试。我有一个因变量,大脑连接。因此,一旦我执行PCA,我就会得到这样的东西:
PC1: 0.7X1+0.2x3
PC2: 0.8X2
PC3: 0.8X3+0.4X4
PC4: 0.1X4
PC1和PC2解释了数据中82%的方差。然而,我不知道该如何看待这些信息。如何根据我的原始变量来解释这些信息?因此,我想在主要成分中发现的变量之间进行回归,以进一步分析哪些成分可能会导致这种差异。Lm(连通性~记忆+认知测试(
这有道理吗?我该怎么办?
主成分分析结果的含义是告诉你哪种变量组合会导致最高的方差。正如您所指出的,PC1和PC2解释了数据集上的大部分方差(或信息(。为什么?因为它们的特征值是最高的。
例如,您现在可以删除变量X4
,因为它只存在于最不重要的组件中。关于做一个";"临时";PC1和PC2的回归分析,我不认为这会给你带来任何结果。。根据定义,PC1和PC2是线性独立的。所以它们之间没有线性关系。
这些能澄清你的疑虑吗?
我愿意进一步讨论:(