机器学习中的PCA



当在训练集上应用主成分分析技术时,我们会找到一个系数矩阵a,它是主成分。因此,当我们处于培训阶段时,我们会找到这些原则,并将其投射到数据上。我的问题是,在测试阶段,我们是应用相同的主体,还是为数据找到新的主体

我认为这样的答案是:如果我们用它来降维,我们必须找到新的原则。但是如果我们用它来进行特征提取(比如EEG数据的特征提取),我们必须使用旧的(用于训练阶段的数据),我的想法有多真实

BS:我不是在同一时间提问和回答问题,而是说出我的想法,表明误解的点,并听取专家

的意见主成分分析是一种特征向量变换。目标是降低维度。它在某种程度上融合了相关的特征。如果你有重量大小这样的功能,并且当东西很重时,大多数物体也很大。它将这些功能替换为一个weight_and_size。它降低了噪声,也使e.q.神经网络更小。

它使网络能够在更短的时间内解决问题(减少网络规模)。它还应该提高泛化能力。

因此,如果您使用特征向量和PCA压缩来训练网络,您还必须使用转换后的数据来测试它。这仅仅是因为它只有和压缩的特征向量一样多的输入。您还必须使用完全相同的转换。如果网络了解到第一个输入是weight_and_size,则无法设置e.qwarm_and_colory的值并期望良好的结果。

PCA和PCR都建立在训练数据上,转换用于测试性能(错误)评估。有了这两种技术,当不只是使用单个训练数据集,而是进行K-fold交叉验证时,你会得到更好的结果,在K-fold Cross验证中,你对每个折叠进行单独的PCA,并将转换应用于测试集。希望它能有所帮助!

最新更新