对特征选择预处理进行交叉验证的动机是什么



我看到了几篇文章和功能选择(包装器和嵌入方法(的示例,它们将样本数据拆分为训练集和测试集。

我理解为什么我们需要使用交叉验证(将数据拆分为训练和测试集(来构建和测试模型的分数(所提出算法的实际预测(。

但我不明白这样做的动机是什么?

我们需要选择哪些特征还没有真正的结果,那么它如何改进特征选择的过程呢?

好处是什么?

大多数功能选择方法,如包装模型,都需要比较模型在使用不同功能组合时的性能。

当使用不同的特征子集时,交叉验证提供了一种更稳健的方法来比较性能,因此,提供了一个更稳健的特征选择过程。例如,如果使用K-folds交叉验证,则比较将基于来自不同数据折叠的误差的平均值,因此,选择将导致最小泛化误差的子集。

此外,对于不同的特征组合,最优超参数不一定是相同的。交叉验证有助于进行调优,从而实现更公平的比较。

这也是一个关于这个主题的信息资源。

相关内容

  • 没有找到相关文章

最新更新