多类分类:概率和校准



我正在使用不同的分类器研究多类分类问题,使用Python和scikit-learn。我想使用预测概率,基本上是比较特定情况下不同分类器的预测概率。

我开始阅读有关"校准"的文章,例如在scikit-learn和出版物上,我感到困惑。

对于我的理解:一个校准良好的概率意味着一个概率也反映了某个类的比例。

  1. 这是否意味着如果我有 10 个平均分布的类,理想情况下每个类的校准概率约为 0.1?

  2. 我可以将predict_proba(无需校准(的概率解释为"分类器对此是正确的类有多确定"吗?

希望有人能为我澄清这一点! :)

我知道您使用此定义遇到了多类分类问题。 "scikit-learn中的所有分类器都可以开箱即用地进行多类分类。

在这种情况下,如前所述,

如果基本估计器支持多类预测,则校准分类器CV 可以在多类设置中校准概率。[情况总是如此。 首先以一对一对静止的方式为每个类单独校准分类器。预测概率时,将单独预测每个类的校准概率。由于这些概率不一定等于 1,因此执行后处理以规范化它们。

我希望这能回答你的第一个问题。

回答您的第二个问题:是的,这就是predict_proba校准前后的想法。然而,在校准之后,predict_proba的结果实际上是正确的,而之前它们只是马马虎虎

。<小时 />

之后:

准确地说,我没有试图从表面上回答你的第一个问题。 在那里,您询问了每个类的概率。但是,由于我们谈论的是校准,因此您必须考虑predict_proba每个样本而不是每个类给出的输出。我认为你的意思是每个样本,否则你应该指定:你的意思是所有样本的平均概率吗?

最新更新