多类分类:概率和校准

我正在使用不同的分类器研究多类分类问题，使用Python和scikit-learn。我想使用预测概率，基本上是比较特定情况下不同分类器的预测概率。

我开始阅读有关"校准"的文章，例如在scikit-learn和出版物上，我感到困惑。

对于我的理解：一个校准良好的概率意味着一个概率也反映了某个类的比例。

希望有人能为我澄清这一点！ :)

我知道您使用此定义遇到了多类分类问题。 "scikit-learn中的所有分类器都可以开箱即用地进行多类分类。

在这种情况下，如前所述，

如果基本估计器支持多类预测，则校准分类器CV 可以在多类设置中校准概率。[情况总是如此。首先以一对一对静止的方式为每个类单独校准分类器。预测概率时，将单独预测每个类的校准概率。由于这些概率不一定等于 1，因此执行后处理以规范化它们。

我希望这能回答你的第一个问题。

回答您的第二个问题：是的，这就是predict_proba校准前后的想法。然而，在校准之后，predict_proba的结果实际上是正确的，而之前它们只是马马虎虎

。<小时 />

之后：

准确地说，我没有试图从表面上回答你的第一个问题。在那里，您询问了每个类的概率。但是，由于我们谈论的是校准，因此您必须考虑predict_proba是每个样本而不是每个类给出的输出。我认为你的意思是每个样本，否则你应该指定：你的意思是所有样本的平均概率吗？

相关内容