Scikit学习SVC的错误预测

我正在尝试预测MNIST(http://pjreddie.com/projects/mnist-in-csv/)使用径向核的SVM的数据集。我想用几个例子（例如1000个）进行训练，并预测更多的例子。问题是，无论何时我进行预测，预测都是常数，除非测试集的指数与训练集的指数一致。也就是说，假设我使用训练示例中的示例1:1000进行训练。然后，对于我的测试集的1:1000，预测是正确的（即SVM尽其所能），但对于其他测试集，我得到了相同的输出。然而，如果我使用示例2001:3000进行训练，那么只有与测试集中那些行相对应的测试示例被正确标记（即，不使用相同的常数）。我完全不知所措，我认为存在某种错误，因为完全相同的代码在LinearSVC中运行得很好，尽管显然该方法的准确性较低。

首先，我用501:1000的训练数据示例进行训练：

# dat_train/test are pandas DFs corresponding to both MNIST datasets
dat_train = pd.read_csv('data/mnist_train.csv', header=None)
dat_test = pd.read_csv('data/mnist_train.csv', header=None)
svm = SVC(C=10.0)
idx = range(1000)
#idx = np.random.choice(range(len(dat_train)), size=1000, replace=False)
X_train = dat_train.iloc[idx,1:].reset_index(drop=True).as_matrix()
y_train = dat_train.iloc[idx,0].reset_index(drop=True).as_matrix()
X_test = dat_test.reset_index(drop=True).as_matrix()[:,1:]
y_test = dat_test.reset_index(drop=True).as_matrix()[:,0]
svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])

在这里你可以看到大约一半的预测是错误的

y_pred = svm.predict(X_test[:1000,:])
confusion_matrix(y_test[:1000], y_pred)

全部错误（即恒定）

y_pred = svm.predict(X_test[:500,:])
confusion_matrix(y_test[:500], y_pred)

这是我希望看到的所有测试数据

y_pred = svm.predict(X_test[501:1000,:])
confusion_matrix(y_test[501:1000], y_pred)

您可以使用LinearSVC检查以上所有内容是否正确！

默认内核是RBF，在这种情况下gamma很重要。如果未提供gamma，则默认为auto，即1/n_features。您最好运行网格搜索来找到最佳参数。在这里，我只是说明了在给定适当参数的情况下，结果是正常的。

In [120]: svm = SVC(C=1, gamma=0.0000001)
In [121]: svm.fit(X=X_train[501:1000,:], y=y_train[501:1000])
Out[121]:
SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma=1e-07, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
In [122]: y_pred = svm.predict(X_test[:1000,:])
In [123]: confusion_matrix(y_test[:1000], y_pred)
Out[123]:
array([[ 71,   0,   2,   0,   2,   9,   1,   0,   0,   0],
       [  0, 123,   0,   0,   0,   1,   1,   0,   1,   0],
       [  2,   5,  91,   1,   1,   1,   3,   7,   5,   0],
       [  0,   1,   4,  48,   0,  40,   1,   5,   7,   1],
       [  0,   0,   0,   0,  88,   2,   3,   2,   0,  15],
       [  1,   1,   1,   0,   2,  77,   0,   3,   1,   1],
       [  3,   0,   3,   0,   5,   4,  72,   0,   0,   0],
       [  0,   2,   3,   0,   3,   0,   1,  88,   1,   1],
       [  2,   0,   1,   2,   3,   9,   1,   4,  63,   4],
       [  0,   1,   0,   0,  16,   3,   0,  11,   1,  62]])

为SVC找到好的参数本身就是一门艺术。网格搜索可能会有所帮助，更好地进行一些基于人群的训练，比如本文中的训练-我最近尝试过。如果你让它同时运行，它的结果会比网格搜索更好。如果你让它运行，直到精度相同，它会更快。

这也有助于制作图形：让x和y轴为C和gamma，并将预测分数绘制为颜色。通常，你会在两条线相交的地方发现一种训练效果最好的V型。同时，这一点也具有较低的C值，这是可取的，因为C决定SVC的运行时间：高C使运行时间较长。

相关内容

最新更新

热门标签：