我正在使用不同的分类器研究多类分类问题,使用Python和scikit-learn。我想使用预测概率,基本上是比较特定情况下不同分类器的预测概率。
我开始阅读有关"校准"的文章,例如在scikit-learn和出版物上,我感到困惑。
对于我的理解:一个校准良好的概率意味着一个概率也反映了某个类的比例。
这是否意味着如果我有 10 个平均分布的类,理想情况下每个类的校准概率约为 0.1?
我可以将
predict_proba
(无需校准(的概率解释为"分类器对此是正确的类有多确定"吗?
希望有人能为我澄清这一点! :)
我知道您使用此定义遇到了多类分类问题。 "scikit-learn中的所有分类器都可以开箱即用地进行多类分类。
在这种情况下,如前所述,
如果基本估计器支持多类预测,则校准分类器CV 可以在多类设置中校准概率。[情况总是如此。 首先以一对一对静止的方式为每个类单独校准分类器。预测概率时,将单独预测每个类的校准概率。由于这些概率不一定等于 1,因此执行后处理以规范化它们。
我希望这能回答你的第一个问题。
回答您的第二个问题:是的,这就是predict_proba
校准前后的想法。然而,在校准之后,predict_proba
的结果实际上是正确的,而之前它们只是马马虎虎
之后:
准确地说,我没有试图从表面上回答你的第一个问题。 在那里,您询问了每个类的概率。但是,由于我们谈论的是校准,因此您必须考虑predict_proba
是每个样本而不是每个类给出的输出。我认为你的意思是每个样本,否则你应该指定:你的意思是所有样本的平均概率吗?