使用scikit-learn,我为基本的手写数字检测问题构建了一个支持向量机。
我的总数据集包括235个观测值。我的观察结果包括1025个功能。我知道使用支持向量机的优点之一是在这种情况下,其中有大量的观测值具有大量功能。
创建SVM后,我查看我的混乱矩阵(下图)...
Confusion Matrix:
[[ 6 0]
[ 0 30]]
...并意识到,持有我的15%用于测试的数据(即36个观察结果)是不够的。
我的问题是:如何使用交叉验证解决这个小数据问题?
这正是交叉验证(及其概括,例如err^0.632)的目的。仅使用大量数据,保持集合才是合理的。