在多类分类的情况下,应该如何处理不平衡类



>我有一个数据集,它由用户票证组成,该用户票证是随机的,其中有大约 56 个 cols,它是一个文本数据。我的任务是创建一个模型并训练它来识别和预测工单属于哪个类别,我们有 100 + 个类别在那里。假设类别 A 的计数为 70,000,其他为 50,0000,对于某些类别,票证计数下降到 1 这是一个不平衡的数据吗?如果是我应该如何处理多类分类,到目前为止,为了处理我认为不平衡的数据,我正在使用 SMOTE,但准确性降低。在这种情况下我该怎么办?

我已经尝试过决策树分类器,现在正在研究逻辑回归。

1)在这种情况下使用F1分数作为评估指标(高度不平衡的数据)。

2)在拆分时使用分层抽样train_test。

3)尝试一个与休息分类器。

4)使用xgboost,lightgbm和catboost等算法。

最新更新