为什么使用乙状结肠函数来确定后验概率

我正在尝试用Java实现一个神经网络。我在机器学习教科书中遇到了这个问题，当时正在研究神经网络：

为了提供一些背景，本节讨论的是使用单个感知器进行分类。感知器计算一个简单的函数，它是输入的加权和。让我们调用这个函数 f（x）的输出。然后，sigmoid 函数将 f（x）作为输入。这是课本上的一句话：

The output of the sigmoid function may be interpreted as the posterior 
probability that the input x belongs to a certain class.

为什么 sigmoid 函数的输出被解释为输入属于某个类的概率？

在神经网络中，输出层的 sigmoid 激活函数在分类问题中以某种方式借用了逻辑回归（其中经常使用标准 sigmoid 函数）。这假设结果为二项式概率模型。在此假设下，逻辑回归模型是最大似然，用于量化预测变量中结果 Y 差异中 X 上风险的相对变化。逻辑回归模型的损失函数也与似然性有关。

关于神经网络和逻辑回归之间的关系，还有更多的讨论。另请注意，sigmoid 通常是指形状（和极限），tanh 也是一个 sigmoid 函数。

如果网络的输出是 sigmoid（w.x），这会强制输出进入区间 [0-1]。所以它至少是一个概率的候选者。此外，如果网络上的损失函数是交叉熵损失而不是平方误差损失（如果你想将网络的输出解释为概率，这是一个非常有吸引力的损失函数），则损失函数的权重的偏导数非常简单，这意味着它也很容易优化。

顺便说一下，一个无隐藏层神经网络，其sigmoid输出经过训练以最小化交叉熵损失，这就是逻辑回归。

相关内容