一个ML算法的训练集和测试集



我有一个模型,使用LOOCV在33个数据集上使用SVM进行训练。我收集了另外13个数据集,我把它们分开了。在测试阶段,我将来自训练的数据集(33)和来自测试的12个数据集结合起来,并拥有一个模型,该模型在45个数据集上训练,并在其余数据集上迭代测试(类似于LOOCV)。这种测试方法对吗?所有的录音都是相互独立的,可以作为IID重新提供。

不,LOOCV仅用于小数据集或当您想要准确估计模型性能时。

假设你的训练准确率是90%,你的测试准确率可能是50%。
这是由于大列车尺寸和小测试尺寸的过拟合。
ML模型的过拟合图像

假设你的45个数据集大小相同,你的训练测试大小将是98% - 2%
列车试验尺寸的一般经验法则是80% - 20%

您可以使用train_testrongplit, k-fold split, stratifiedshufflesplit等。

最新更新