训练 SVM 时是否需要单独的验证和测试集



给定从训练数据集中提取的一组特征,用于训练SVM。SVM 参数(例如 c、gamma)使用 k 折叠交叉验证进行选择,例如,将训练数据集分为 5 个折叠,其中一个作为验证集。完成折叠的旋转,平均精度用于选择最佳参数。
那么我是否应该有另一组(测试集)并报告(如纸质出版物)结果?我的理解是,由于验证集用于选择参数,因此需要测试集。
在机器学习中,测试集在我们决定分类器之前是看不到的(例如,在比赛中,测试集是未知的,我们仅根据训练集提交最终分类器)。

常见的方法是,在交叉验证阶段之后,您需要进一步调整参数,因此需要一个验证集来控制每个模型的质量。

一旦您认为该模型无法在

验证集上得到显著改进,而不会有过度拟合的风险,那么您就可以在测试集上使用您的模型来报告结果。

编辑:

由于您专门询问 k 折叠交叉验证,因此该技术隐式分离用于测试结果模型的模型,因此不需要额外的测试步骤。

来自维基百科文章:

"在 k 个子样本中,保留单个子样本作为

测试模型的验证数据,其余 k − 1 个子样本用作训练数据"维基百科

最新更新