降低信号预测中的假负率



我目前正在研究一个通过使用某些分类学习算法来估算信号的项目,例如使用Scikit-learn。

我现在使用混淆矩阵来估计预测中不同算法的性能,我发现两种算法都有常见的问题。也就是说,在所有情况下,尽管算法的准确性似乎相对较好(约为90%-93%),但与TP相比,FN的总数相当高(FNR< 3%)。任何人都知道为什么我在预测问题中遇到这种问题。如果可能的话,您能给我一些有关如何解决此问题的提示吗?

感谢您提前的答复和帮助。

更新:该数据集极为不平衡(8:1),总数约为180k。我已经测试了几种重采样方法,例如OSS,Smote( Tomek或 Enn),但是它们都没有返回良好的结果。在这两种情况下,尽管召回率从2.5%提高到20%,但精度显着下降(从60%到20%)。

您可能有一个不平衡的数据集,其中一个课程的示例比其他课程更多。

一种解决方案是给出更高的示例误解班级的成本。

交叉验证中的这个问题涵盖了您问题的许多方法:https://stats.stackexchange.com/questions/131255/class-mmbalance-in-superist-machine-learning

编辑:

鉴于您正在使用Scikit-Learn,您可以作为第一种方法将参数class_weight设置为逻辑回归的balanced

最新更新