对特征选择预处理进行交叉验证的动机是什么

我看到了几篇文章和功能选择(包装器和嵌入方法(的示例，它们将样本数据拆分为训练集和测试集。

我理解为什么我们需要使用交叉验证(将数据拆分为训练和测试集(来构建和测试模型的分数(所提出算法的实际预测(。

但我不明白这样做的动机是什么？

我们需要选择哪些特征还没有真正的结果，那么它如何改进特征选择的过程呢？

好处是什么？

大多数功能选择方法，如包装模型，都需要比较模型在使用不同功能组合时的性能。

当使用不同的特征子集时，交叉验证提供了一种更稳健的方法来比较性能，因此，提供了一个更稳健的特征选择过程。例如，如果使用K-folds交叉验证，则比较将基于来自不同数据折叠的误差的平均值，因此，选择将导致最小泛化误差的子集。

此外，对于不同的特征组合，最优超参数不一定是相同的。交叉验证有助于进行调优，从而实现更公平的比较。

这也是一个关于这个主题的信息资源。

相关内容