为什么使用乙状结肠函数来确定后验概率



我正在尝试用Java实现一个神经网络。我在机器学习教科书中遇到了这个问题,当时正在研究神经网络:

为了提供一些背景,本节讨论的是使用单个感知器进行分类。感知器计算一个简单的函数,它是输入的加权和。让我们调用这个函数 f(x) 的输出。然后,sigmoid 函数将 f(x) 作为输入。这是课本上的一句话:

The output of the sigmoid function may be interpreted as the posterior 
probability that the input x belongs to a certain class.

为什么 sigmoid 函数的输出被解释为输入属于某个类的概率?

在神经网络中,输出层的 sigmoid 激活函数在分类问题中以某种方式借用了逻辑回归(其中经常使用标准 sigmoid 函数)。这假设结果为二项式概率模型。在此假设下,逻辑回归模型是最大似然,用于量化预测变量中结果 Y 差异中 X 上风险的相对变化。逻辑回归模型的损失函数也与似然性有关。

关于神经网络和逻辑回归之间的关系,还有更多的讨论。另请注意,sigmoid 通常是指形状(和极限),tanh 也是一个 sigmoid 函数。

如果网络的输出是 sigmoid(w.x),这会强制输出进入区间 [0-1]。所以它至少是一个概率的候选者。此外,如果网络上的损失函数是交叉熵损失而不是平方误差损失(如果你想将网络的输出解释为概率,这是一个非常有吸引力的损失函数),则损失函数的权重的偏导数非常简单,这意味着它也很容易优化。

顺便说一下,一个无隐藏层神经网络,其sigmoid输出经过训练以最小化交叉熵损失,这就是逻辑回归。

最新更新