Python -机器学习



目前我正试图理解机器学习算法的工作方式,有一件事我真的不明白,那就是预测标签的计算精度和视觉混淆矩阵之间的明显区别。我将尽可能解释清楚。

下面是数据集的片段(在这里你可以看到9个样本(在真实数据集中大约4k), 6个特征和9个标签(它们代表不是数字,但有些含义和不能像7> 4> 1那样比较):

f1      f2      f3      f4      f5    f6   label
89.18   0.412   9.1     24.17   2.4   1    1
90.1    0.519   14.3    16.555  3.2   1    2
83.42   0.537   13.3    14.93   3.4   1    3
64.82   0.68    9.1     8.97    4.5   2    4
34.53   0.703   4.9     8.22    3.5   2    5
87.19   1.045   4.7     5.32    5.4   2    6
43.23   0.699   14.9    12.375  4.0   2    7
43.29   0.702   7.3     6.705   4.0   2    8
20.498  1.505   1.321   6.4785  3.8   2    9

为了满足好奇心,我尝试了许多算法(线性,高斯,支持向量机(SVC, SVR),贝叶斯等)。就我对手册的理解而言,在我的情况下,最好使用分类器(离散),而不是回归(连续)。使用常见的:

model.fit(X_train, y_train) 
model.score(X_test, y_test)
我:

Lin_Reg: 0.855793988736
Log_Reg: 0.463251670379
DTC:     0.400890868597
KNC:     0.41425389755
LDA:     0.550111358575
Gaus_NB: 0.391982182628
Bay_Rid: 0.855698151574
SVC:     0.483296213808
SVR:     0.647914795849

连续算法效果更好。当我对贝叶斯岭使用混淆矩阵(必须将浮点数转换为整数)来验证其结果时,我得到了以下结果:

Pred  l1   l2   l3   l4   l5   l6   l7   l8   l9
True
l1    23,  66,  0,   0,   0,   0,   0,   0,   0
l2    31,  57   1,   0,   0,   0,   0,   0,   0
l3    13,  85,  19   0,   0,   0,   0,   0,   0
l4    0,   0,   0,   0    1,   6,   0,   0,   0
l5    0,   0,   0,   4,   8    7,   0,   0,   0
l6    0,   0,   0,   1,   27,  36   7,   0,   0
l7    0,   0,   0,   0,   2,   15,  0    0,   0
l8    0,   0,   0,   1,   1,   30,  8,   0    0
l9    0,   0,   0,   1,   0,   9,   1,   0,   0

什么让我明白85%的准确率是错误的。这怎么解释呢?这是因为float/int转换吗?

如果您有任何直接的回答/链接等,我将非常感谢。

你在这里混合了机器学习的两个非常不同的概念:回归和分类。回归通常处理连续值,例如温度或股票市场价值。另一方面,分类可以告诉你记录中的鸟类种类——这正是你需要使用混淆矩阵的地方。它会告诉你算法正确预测标签的次数以及错误的地方。您正在使用的SciPy对这两个部分都有单独的部分。

对于分类和回归问题,您都可以使用不同的度量来对它们进行评分,因此永远不要假设它们具有可比性。正如@javad所指出的,"决定系数"与准确性非常不同。我还建议阅读准确性和召回率。

在你的情况下,你显然有一个分类问题,因此它应该被处理。另外,注意f6看起来像是一个离散的值集。

如果你想快速尝试不同的方法,我可以推荐H2O,它除了漂亮的API之外,还有很好的用户界面,允许大量并行处理。XGBoost也很出色。

请看这里的文档。

如果你在回归方法上调用score(),它们将返回'预测的决定系数R^2 '而不是准确性。

看看这个
使用"模型。分数(X_test y_test)"。

相关内容

  • 没有找到相关文章

最新更新