处理不平衡的分类数据



我正在构建一个预测模型,在这个模型上我可以预测客户是否会再次订阅。我已经有了数据集,问题是它不平衡(NO比YES多(。我认为我的模型有偏差,但当我用预测检查训练集和测试集的准确性时,准确性非常接近(训练集为0.8879,测试集为0.8868(。我感到困惑的原因是,如果我的模型有偏差,为什么我的训练精度和测试集接近?或者我的模型没有偏见?

快速响应:是的,您的模型很可能将所有内容预测为多数类

让我们用一种更简单的方式来思考。培训过程中有一个优化器,他试图最大限度地提高准确性(最大限度地减少错误分类(。假设你有一个1000张图像的训练集,而数据集中只有10只老虎,你打算学习一个分类器来区分老虎和非老虎。

优化器很可能要做的是为每个图像预测始终非老虎。为什么?因为它是一个更简单的模型,更容易实现(可能在更简单的空间中(,而且它的准确率达到99%!

我建议你多读一些关于imbalanced data的问题(这个问题似乎是一个很好的开始https://machinelearningmastery.com/what-is-imbalanced-classification/)根据您要解决的问题,您可以尝试使用down-samplingover-sampling或更高级的解决方案,如更改损失函数和指标、使用F1或AUC和/或进行排名而不是分类。

最新更新