一个ML算法的训练集和测试集

我有一个模型，使用LOOCV在33个数据集上使用SVM进行训练。我收集了另外13个数据集，我把它们分开了。在测试阶段，我将来自训练的数据集(33)和来自测试的12个数据集结合起来，并拥有一个模型，该模型在45个数据集上训练，并在其余数据集上迭代测试(类似于LOOCV)。这种测试方法对吗?所有的录音都是相互独立的，可以作为IID重新提供。

不，LOOCV仅用于小数据集或当您想要准确估计模型性能时。

假设你的训练准确率是90%，你的测试准确率可能是50%。
这是由于大列车尺寸和小测试尺寸的过拟合。
ML模型的过拟合图像

假设你的45个数据集大小相同，你的训练测试大小将是98% - 2%。
列车试验尺寸的一般经验法则是80% - 20%

您可以使用train_testrongplit, k-fold split, stratifiedshufflesplit等。

相关内容

最新更新

热门标签：