人工计算SVM的决策函数



我正试图使用python库SKLearn手动计算SVC分类器的decision_function(而不是使用内置方法)。

我已经尝试了几种方法,然而,只有当我缩放数据时,我才能获得匹配的手动计算。

z是一个测试数据(已缩放),我认为其他变量不言自明(此外,如果代码中不明显,我将使用rbf内核)。

以下是我尝试过的方法:

1循环方式:

dec_func = 0
for j in range(np.shape(sup_vecs)[0]):
    norm2 = np.linalg.norm(sup_vecs[j, :] - z)**2 
    dec_func = dec_func + dual_coefs[0, j] * np.exp(-gamma*norm2)
dec_func += intercept

2矢量化方法

diff = sup_vecs - z
norm2 = np.sum(np.sqrt(diff*diff), 1)**2
dec_func = dual_coefs.dot(np.exp(-gamma_params*norm2)) + intercept

然而,这两者都不会返回与decision_function相同的值。我认为这可能与重新调整我的价值观有关,或者更可能是我一直在寻找的愚蠢的东西!

如有任何帮助,我们将不胜感激。

所以,经过一番挖掘和挠头,我终于明白了。

如上所述,z是一个经过缩放的测试数据。为了扩展它,我必须从预处理中提取.mean_.std_属性。StandardScaler()对象(当然是在对我的训练数据调用.fit()之后)。

然后,我使用这个缩放的z作为手动计算和内置函数的输入。然而,内置函数是管道的一部分,该管道已经将StandardScaler作为其管道中的第一个"管道",因此z被缩放了两次!因此,当我从管道中删除缩放时,手动答案与内置函数的答案"匹配"。

顺便说一句,我用引号说"匹配",因为我发现我总是必须翻转手动计算的符号才能匹配内置版本。目前我不知道为什么会出现这种情况。

最后,我误解了管道的工作原理。

对于那些感兴趣的人,以下是我的手动方法的最终版本:

diff = sup_vecs - z_scaled
# Looping Method
dec_func_loop = 0
for j in range(np.shape(sup_vecs)[0]):
    norm2 = np.linalg.norm(diff[j,:]) 
    dec_func_loop = dec_func_loop + dual_coefs[j] * np.exp(-gamma*(norm2**2))
dec_func_loop = -1 * (dec_func_loop - intercept)
# Vectorized method
norm2 = np.array([np.linalg.norm(diff[n, :]) for n in range(np.shape(sup_vecs)[0])])
dec_func_vec = -1 * (dual_coefs.dot(np.exp(-gamma*(norm2**2))) - intercept)

附录

对于那些有兴趣实现多类SVC手动方法的人来说,以下链接很有帮助:https://stackoverflow.com/a/27752709/1182556

最新更新