当我构造这样的计算时
p_1 = 1 / (1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2)))
W1、W2、B1、B2 是参数。我构造了一个交叉熵作为损失函数。
但是当我采取渐变时
T.grad(loss,[w1, b1, w2, b2])
所有得到的梯度都是楠。
这个问题有什么可能的原因吗?有什么解决方案吗?
提前谢谢你!
我得到了解决方案。基本上是数值不稳定。通过将日志 sigmoid 更改为 softplus 解决了这个问题。