我有一个不平衡的数据集,我正在尝试进行二进制分类。最后我使用了几种算法CatBoostClassifier
和lightgbm
给了我比较好的结果。我有一个关于classification_report
和confusion_matrix
的问题要问。
正如您从我的classification_report
中看到的:-CCD_ 6:1076,-CCD_ 7:0,-CCD_ 8:1,-True Positives
:6。
Sensitivity
:0.86和Specificity
1.00,这意味着我的false positive rate
是0.0。
我认为它确实表现得很好。
从classification_report
中,它是否告诉你我的模型可能已经过拟合,或者它确实表现良好?
我之所以这么问,是因为类别1
(数量较少(的support
是7,而类别0
是1076。
从链接中可以看出:;支持是位于该类中的真实响应的样本数"但我真的不明白这里的意思。
有人能向我解释一下,或者让我知道我的算法是否过拟合或表现良好吗?
标签比例:
0 5550
1 60
分类报告
precision recall f1-score support
0.0 1.00 1.00 1.00 1076
1.0 1.00 0.86 0.92 7
accuracy 1.00 1083
macro avg 1.00 0.93 0.96 1083
weighted avg 1.00 1.00 1.00 1083
混淆矩阵:
[[1076 0]
[ 1 6]]
如果将训练集和测试集的分类报告放在一起看,你将能够更好地理解事情,仅仅看训练集或训练集上的表现是无法确定的。但是,如果我们假设您在这里展示的性能度量是针对测试集的,并且训练集中的性能也或多或少与您在测试集中观察到的性能相似,那么我认为该模型做得很好。类1
的调用是86%
,因为它只形成了数据集的1%
,这是非常好的。
此外,支持是指数据集中属于某个特定类的示例总数,例如,在您的情况下,对类0
的支持是5550
,对类1
的支持是60