处理不平衡的分类数据

我正在构建一个预测模型，在这个模型上我可以预测客户是否会再次订阅。我已经有了数据集，问题是它不平衡(NO比YES多(。我认为我的模型有偏差，但当我用预测检查训练集和测试集的准确性时，准确性非常接近(训练集为0.8879，测试集为0.8868(。我感到困惑的原因是，如果我的模型有偏差，为什么我的训练精度和测试集接近？或者我的模型没有偏见？

快速响应：是的，您的模型很可能将所有内容预测为多数类。

让我们用一种更简单的方式来思考。培训过程中有一个优化器，他试图最大限度地提高准确性(最大限度地减少错误分类(。假设你有一个1000张图像的训练集，而数据集中只有10只老虎，你打算学习一个分类器来区分老虎和非老虎。

优化器很可能要做的是为每个图像预测始终非老虎。为什么？因为它是一个更简单的模型，更容易实现(可能在更简单的空间中(，而且它的准确率达到99%！

我建议你多读一些关于imbalanced data的问题(这个问题似乎是一个很好的开始https://machinelearningmastery.com/what-is-imbalanced-classification/)根据您要解决的问题，您可以尝试使用down-sampling、over-sampling或更高级的解决方案，如更改损失函数和指标、使用F1或AUC和/或进行排名而不是分类。

相关内容

最新更新

热门标签：