我正在使用xgb分类器对两个以上的类进行文本分类。达到大约 ~65% 的准确度时,我研究了模型输出的概率。对于没有测试示例,我向模型显示它为任何给定类输出超过 0.3。因此,即使模型是正确的,它也会在大约 20% 的差异上选择一个类。
这是我应该担心的事情吗?我希望模型至少在某些情况下是确定的(因此输出大约 90%(。对输出概率有这么简单的解释吗?或者只要类是正确的,我就不应该担心输出概率吗?
编辑:我有大约 100 个类,这些类也是不平衡的,大约 3 个类别占整个数据的 70%。大小或多或少呈线性减小。
数据本身是德语文本,如果有人感兴趣的话。
欢迎来到 SO! 在没有任何数据样本或代码的情况下,很难评论问题是什么。
数据中的类分布是什么? 例如,假设您有五个类平均分配,即每个类大约 20%。 然后,为特定类中的某些观测值获得 0.20 的输出可能非常重要,即模型非常确定此分配。
是否可以发布一些数据和代码,如果数据敏感,则匿名化。