交叉验证是否足以确保分类算法中没有过拟合?



我有一个数据集,一个类有 45 个观测值,另一个类有 55 个观测值。此外,我正在使用以前使用功能选择过滤器选择的 4 个不同功能,尽管此过程的结果有些奇怪。

另一方面,我正在使用交叉验证并从不同的分类器中获得良好的准确率结果(75% 到 85%(,因为我在 Matlab 上使用分类学习者。这能确保没有过度拟合吗?或者可能还有机会?如何确保不存在过拟合?

这实际上取决于您可用的训练数据集。如果可用的数据不够具有代表性,则无论使用何种方法进行训练和验证,都无法获得好的模型。

考虑到这一点,如果您确定您的数据具有代表性(对于"重要"属性的任何子集具有与所有数据的全局集相同的值分布(,那么交叉验证就足够好了。

最新更新