Theano中梯度的Nan误差

  • 本文关键字:Nan 误差 Theano theano
  • 更新时间 :
  • 英文 :


当我构造这样的计算时

p_1 = 1 / (1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2)))
W1、

W2、B1、B2 是参数。我构造了一个交叉熵作为损失函数。

但是当我采取渐变时

T.grad(loss,[w1, b1, w2, b2])

所有得到的梯度都是楠。

这个问题有什么可能的原因吗?有什么解决方案吗?

提前谢谢你!

我得到了解决方案。基本上是数值不稳定。通过将日志 sigmoid 更改为 softplus 解决了这个问题。

最新更新