LogisticRegression预测概率



我目前正在使用scikit-learn中的LogisticRegression来解决多类分类问题。我决定使用LogisticRegression,因为我读了几篇文章,将其描述为一种在预测概率方面经过良好校准的算法。

对于分类器的每个结果,我检查其预测概率以及分类观察与具有相同决策类的训练集中的其余示例之间的距离。

我感到惊讶的是,对于一些结果,即使一个类的预测置信度超过90%,余弦相似性度量表明,给定的例子平均与训练集中具有相同类的例子集几乎正交。

有人能提供一些线索,说明为什么会出现这种差异吗?

我预计,对于与同类的其他观测结果相距甚远的示例,LogisticRegression算法将返回较低的预测概率。

逻辑回归/分类将提供关于决策边界的结果,但不能保证边界同一侧的点(即属于同一类)将具有较小的余弦距离(甚至较小的欧几里得距离)。

考虑x-y平面中的点,其中y=0以下的所有点属于一个类,而以上的所有点则属于另一个类。点(-1000,1)和(1000,1)属于同一类,但它们之间的余弦距离相对较大。另一方面,点(1000,1)和(1000,-1)属于不同的类,但具有非常小的余弦距离。

相关内容

  • 没有找到相关文章

最新更新