为什么Relu可以解决梯度消失?



当涉及到sigmoid时,由于0~1的大量乘法,第一个边很少更新。我了解到这叫做消失梯度。

但为什么这对Relu来说不是问题呢?我认为relu的第一个边缘也很少更新。

由于reluderivative要么是 0 要么是 1,那么它的很多乘法不是收敛到 0 吗?

本文对这个问题有一个有趣的讨论: http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

特别是,请查看第 318 页上的"潜在问题"部分。这似乎正是因为导数是 0 或 1,但绝不会只是"接近"零(如在 sigmoid 情况下(,这会导致稀疏表示,结果证明有助于训练。

相关内容

最新更新