我看到了几篇文章和功能选择(包装器和嵌入方法(的示例,它们将样本数据拆分为训练集和测试集。
我理解为什么我们需要使用交叉验证(将数据拆分为训练和测试集(来构建和测试模型的分数(所提出算法的实际预测(。
但我不明白这样做的动机是什么?
我们需要选择哪些特征还没有真正的结果,那么它如何改进特征选择的过程呢?
好处是什么?
大多数功能选择方法,如包装模型,都需要比较模型在使用不同功能组合时的性能。
当使用不同的特征子集时,交叉验证提供了一种更稳健的方法来比较性能,因此,提供了一个更稳健的特征选择过程。例如,如果使用K-folds交叉验证,则比较将基于来自不同数据折叠的误差的平均值,因此,选择将导致最小泛化误差的子集。
此外,对于不同的特征组合,最优超参数不一定是相同的。交叉验证有助于进行调优,从而实现更公平的比较。
这也是一个关于这个主题的信息资源。