降低信号预测中的假负率

我目前正在研究一个通过使用某些分类学习算法来估算信号的项目，例如使用Scikit-learn。

我现在使用混淆矩阵来估计预测中不同算法的性能，我发现两种算法都有常见的问题。也就是说，在所有情况下，尽管算法的准确性似乎相对较好（约为90％-93％），但与TP相比，FN的总数相当高（FNR＆LT; 3％）。任何人都知道为什么我在预测问题中遇到这种问题。如果可能的话，您能给我一些有关如何解决此问题的提示吗？

感谢您提前的答复和帮助。

更新：该数据集极为不平衡（8：1），总数约为180k。我已经测试了几种重采样方法，例如OSS，Smote（ Tomek或 Enn），但是它们都没有返回良好的结果。在这两种情况下，尽管召回率从2.5％提高到20％，但精度显着下降（从60％到20％）。

您可能有一个不平衡的数据集，其中一个课程的示例比其他课程更多。

一种解决方案是给出更高的示例误解班级的成本。

交叉验证中的这个问题涵盖了您问题的许多方法：https://stats.stackexchange.com/questions/131255/class-mmbalance-in-superist-machine-learning

编辑：

鉴于您正在使用Scikit-Learn，您可以作为第一种方法将参数class_weight设置为逻辑回归的balanced。

相关内容

最新更新

热门标签：