不平衡类的分类报告的支持值的指示



我有一个不平衡的数据集,我正在尝试进行二进制分类。最后我使用了几种算法CatBoostClassifierlightgbm给了我比较好的结果。我有一个关于classification_reportconfusion_matrix的问题要问。

正如您从我的classification_report中看到的:-CCD_ 6:1076,-CCD_ 7:0,-CCD_ 8:1,-True Positives:6。

Sensitivity:0.86和Specificity1.00,这意味着我的false positive rate是0.0。

我认为它确实表现得很好。

classification_report中,它是否告诉你我的模型可能已经过拟合,或者它确实表现良好?

我之所以这么问,是因为类别1(数量较少(的support是7,而类别0是1076。

从链接中可以看出:;支持是位于该类中的真实响应的样本数"但我真的不明白这里的意思。

有人能向我解释一下,或者让我知道我的算法是否过拟合或表现良好吗?

标签比例:

0    5550
1      60

分类报告

precision    recall  f1-score   support
0.0       1.00      1.00      1.00      1076
1.0       1.00      0.86      0.92         7
accuracy                           1.00      1083
macro avg       1.00      0.93      0.96      1083
weighted avg       1.00      1.00      1.00      1083

混淆矩阵:

[[1076    0]
[   1    6]]

如果将训练集和测试集的分类报告放在一起看,你将能够更好地理解事情,仅仅看训练集或训练集上的表现是无法确定的。但是,如果我们假设您在这里展示的性能度量是针对测试集的,并且训练集中的性能也或多或少与您在测试集中观察到的性能相似,那么我认为该模型做得很好。类1的调用是86%,因为它只形成了数据集的1%,这是非常好的。

此外,支持是指数据集中属于某个特定类的示例总数,例如,在您的情况下,对类0的支持是5550,对类1的支持是60

最新更新