处理不平衡问题后，对于高度倾斜的数据，精度会下降

在对数据进行预处理(如缺失值替换和离群值检测)后，我使用随机化对数据进行分区，并使用WEKA删除百分比过滤器。我的数据集是一个高度倾斜的数据集，失衡比例为6:1，对应于负类和正类。如果我使用朴素贝叶斯分类器对数据进行分类，而不处理类不平衡问题，我的准确率为83%，召回率为0.623。但是，如果我使用监督-实例-重新采样或监督-实例-扩展样本过滤器处理类不平衡(在平衡1:1之后)，然后应用朴素贝叶斯进行分类准确率降低77%，召回率为0.456。

我不明白为什么当处理类不平衡比率时准确率会下降?

谢谢。

如果你的类不平衡是6:1，那么大多数类是6/7 = 85.7%。仅通过预测大多数类(例如使用zero)，您将获得比NaiveBayes所达到的精度略高的精度。

在平衡你的数据集之后，NaiveBayes报告了77%的准确率，远高于预测大多数类别的50%。

从某种意义上说，NaiveBayes实际上已经改进了。

相关内容

最新更新

热门标签：