比较h2o-gbm中多项式模型的预测概率



我运行了一个h2o梯度提升分类器模型来预测三个类0,1和2的概率。训练数据中存在严重的阶级失衡(93:5:2(。

尽管单独的类1&2在混淆矩阵中没有正确预测(正如预期的那样(,AUC对于这些类别来说是合适的。

我计划手动预测最终类别

我的理解是,得到的概率(P0,P1&P2(被校准并加起来为1。

由于h2o中的多项式模型本质上是一对多的方法,但分数加起来是1,所以添加或比较概率正确吗?

因此,如果P0=0.40,P1=0.35和P2=0.25,则预测类别将为0(基于最大概率(

  1. 这是否意味着p(1,2(=0.6或者p(不是0(=0.6?(由于类0的模型实际上是0,而不是所有其他类(

  2. 然后我可以比较1和2的概率吗;2并且假定P1(0.35(>P2(0.25(,那么预测的类应该是1?(由于生成的类是互斥的,并且概率加起来为1,这些类是否具有可比性?(

对于不平衡的目标列,我会避免AUC(因为它通常会很高(。考虑使用AUC-PR或Logloss。

对于多类/多项,你会有一个对所有的预测。因此,每个预测都是基于它的类与其他类。因此,P0是类0与类1+类2的概率。所以P(1,2(=0.6是有意义的。

对于比较概率,是的,您可以选择具有最高概率输出P1 (0.35) > P2 (0.25) -> Class = 1的预测类。

相关内容

  • 没有找到相关文章

最新更新