机器学习中的PCA

当在训练集上应用主成分分析技术时，我们会找到一个系数矩阵a，它是主成分。因此，当我们处于培训阶段时，我们会找到这些原则，并将其投射到数据上。我的问题是，在测试阶段，我们是应用相同的主体，还是为数据找到新的主体

我认为这样的答案是：如果我们用它来降维，我们必须找到新的原则。但是如果我们用它来进行特征提取（比如EEG数据的特征提取），我们必须使用旧的（用于训练阶段的数据），我的想法有多真实

BS：我不是在同一时间提问和回答问题，而是说出我的想法，表明误解的点，并听取专家

的意见主成分分析是一种特征向量变换。目标是降低维度。它在某种程度上融合了相关的特征。如果你有重量和大小这样的功能，并且当东西很重时，大多数物体也很大。它将这些功能替换为一个weight_and_size。它降低了噪声，也使e.q.神经网络更小。

它使网络能够在更短的时间内解决问题（减少网络规模）。它还应该提高泛化能力。

因此，如果您使用特征向量和PCA压缩来训练网络，您还必须使用转换后的数据来测试它。这仅仅是因为它只有和压缩的特征向量一样多的输入。您还必须使用完全相同的转换。如果网络了解到第一个输入是weight_and_size，则无法设置e.qwarm_and_colory的值并期望良好的结果。

PCA和PCR都建立在训练数据上，转换用于测试性能（错误）评估。有了这两种技术，当不只是使用单个训练数据集，而是进行K-fold交叉验证时，你会得到更好的结果，在K-fold Cross验证中，你对每个折叠进行单独的PCA，并将转换应用于测试集。希望它能有所帮助！

相关内容

最新更新

热门标签：