我使用sigmoid传递函数设置了一个非常简单的多层感知器,其中包含单个隐藏层,并使用2个输入模拟数据。
我尝试在 Github 上使用 TensorFlow 示例使用简单前馈神经网络进行设置。我不会在这里发布整个事情,但我的成本函数是这样设置的:
# Backward propagation
loss = tensorflow.losses.mean_squared_error(labels=y, predictions=yhat)
cost = tensorflow.reduce_mean(loss, name='cost')
updates = tensorflow.train.GradientDescentOptimizer(0.01).minimize(cost)
然后,我简单地循环浏览一堆纪元,目的是通过每一步的updates
运算来优化我的权重:
with tensorflow.Session() as sess:
init = tensorflow.global_variables_initializer()
sess.run(init)
for epoch in range(10):
# Train with each example
for i in range(len(train_X)):
feed_dict = {X: train_X[i: i + 1], y: train_y[i: i + 1]}
res = sess.run([updates, loss], feed_dict)
print "epoch {}, step {}. w_1: {}, loss: {}".format(epoch, i, w_1.eval(), res[1])
train_result = sess.run(predict, feed_dict={X: train_X, y: train_y})
train_errors = abs((train_y - train_result) / train_y)
train_mean_error = numpy.mean(train_errors, axis=1)
test_result = sess.run(predict, feed_dict={X: test_X, y: test_y})
test_errors = abs((test_y - test_result) / test_y)
test_mean_error = numpy.mean(test_errors, axis=1)
print("Epoch = %d, train error = %.5f%%, test error = %.5f%%"
% (epoch, 100. * train_mean_error[0], 100. * test_mean_error[0]))
sess.close()
我希望该程序的输出显示,在每个时期和每个步骤中,权重都会更新,其loss
值会随着时间的推移而广泛减少。
但是,虽然我看到损失值和误差在减少,但权重仅在第一步后才会改变,然后在程序的其余部分保持固定。
这是怎么回事?
以下是在前 2 个时期打印到屏幕的内容:
epoch 0, step 0. w_1: [[0. 0.]
[0. 0.]], loss: 492.525634766
epoch 0, step 1. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 482.724365234
epoch 0, step 2. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 454.100799561
epoch 0, step 3. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 418.499267578
epoch 0, step 4. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 387.509033203
Epoch = 0, train error = 84.78731%, test error = 88.31780%
epoch 1, step 0. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 355.381134033
epoch 1, step 1. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 327.519226074
epoch 1, step 2. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 301.841705322
epoch 1, step 3. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 278.177368164
epoch 1, step 4. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 257.852508545
Epoch = 1, train error = 69.24779%, test error = 76.38461%
除了不改变之外,有趣的是,每行的权重值相同。损失本身一直在减少。这是最后一个纪元的样子:
epoch 9, step 0. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 13.5048065186
epoch 9, step 1. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 12.4460296631
epoch 9, step 2. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 11.4702644348
epoch 9, step 3. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 10.5709943771
epoch 9, step 4. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], loss: 10.0332946777
Epoch = 9, train error = 13.49328%, test error = 33.56935%
我在这里做错了什么?我知道权重正在某处更新,因为我可以看到训练和测试错误在变化,但为什么我看不到呢?
编辑:根据squadrick
的要求,这里是w_1
和y_hat
的代码:
# Layer's sizes
x_size = train_X.shape[1] # Number of input nodes
y_size = train_y.shape[1] # Number of outcomes
# Symbols
X = tensorflow.placeholder("float", shape=[None, x_size], name='X')
y = tensorflow.placeholder("float", shape=[None, y_size], name='y')
# Weight initializations
w_1 = tensorflow.Variable(tensorflow.zeros((x_size, x_size)))
w_2 = tensorflow.Variable(tensorflow.zeros((x_size, y_size)))
# Forward propagation
h = tensorflow.nn.sigmoid(tensorflow.matmul(X, w_1))
yhat = tensorflow.matmul(h, w_2)
编辑2:squadrick
的建议是看w_2
很有趣; 当我用以下内容将w_2
添加到打印语句中时;
print "epoch {}, step {}. w_1: {}, w_2: {}, loss: {}".format(epoch, i, w_1.eval(), w_2.eval(), res[1])
我看到它确实更新了;
epoch 0, step 0. w_1: [[0. 0.]
[0. 0.]], w_2: [[0.22192918]
[0.22192918]], loss: 492.525634766
epoch 0, step 1. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], w_2: [[0.44163907]
[0.44163907]], loss: 482.724365234
epoch 0, step 2. w_1: [[0.5410637 0.5410637]
[0.5803371 0.5803371]], w_2: [[0.8678319]
[0.8678319]], loss: 454.100799561
所以现在看起来问题是只有w_2
正在更新,而不是w_1
.我仍然不确定为什么会发生这种情况。
使用以下代码将所有权重初始化为 0:
# Weight initializations
w_1 = tensorflow.Variable(tensorflow.zeros((x_size, x_size)))
w_2 = tensorflow.Variable(tensorflow.zeros((x_size, y_size)))
这是有问题的,用小随机数初始化所有权重更为常见(例如,在原始 github 链接中所做的)。更好的是泽维尔初始化。
通常,将所有权重初始化为(接近)0
是有问题的,因为这可能导致梯度0
并更新0
的幅度。例如,如果您的网络涉及 RELU 或 tanh 激活功能,则尤其如此。
有关反向传播背后的数学的更多详细信息,请参阅此页面。
不过,如果我为您的具体情况计算出数学,似乎这不应该完全发生(除非我在某处犯了错误)。事实上,我们确实看到您的w_1
权重在离开0
后就会更新。让我们尝试计算出 3 次向前 + 向后传球:
a^(l)
= 第l
层中的激活级别,e^(l)
= 第l
层中的错误。
第一次前传:
a^(1) = X
a^(2) = h = sigmoid(matmul(X, w_1)) = sigmoid(matmul(X, 0)) = 0.5
a^(3) = yhat = matmul(h, w_2) = matmul(0.5, 0) = 0
第一次向后传递:
e^(3) = cost = reduce_mean(loss) * 1
(这里的* 1
是输出层激活函数的导数)。e^(2) = w_2 e^(3) * (a^(2) * (1 - a^(2))) = 0
(这里(a^(2) * (1 - a^(2))
是隐藏层中 sigmoid 的导数)。w_2 <-- w_2 + learning_rate * a^(2) * e^(3)
(不乘以0
,权重非零变化)w_1 <-- w_1 + learning_rate * a^(1) e^(2)
(这里的e^(2)
是0
,所以这一步的权重没有变化)。
第二次前传:
a^(1) = X
a^(2) = h = sigmoid(matmul(X, w_1)) = sigmoid(matmul(X, 0)) = 0.5
a^(3) = yhat = matmul(h, w_2) =/= 0
(不再0
,因为w_2
已更新)
第二次向后传递:
e^(3) = cost = reduce_mean(loss) * 1
e^(2) = w_2 e^(3) * (a^(2) * (1 - a^(2)))
(不再0
,因为w_2
已更新)。w_2 <-- w_2 + learning_rate * a^(2) * e^(3)
(不乘以0
,权重非零变化)w_1 <-- w_1 + learning_rate * a^(1) e^(2)
(现在这里也是非零更新)。
第三次前传:
a^(1) = X
a^(2) = h = sigmoid(matmul(X, w_1)) = ???
a^(3) = yhat = matmul(h, w_2) = ???
第三次向后传球:
e^(3) = cost = reduce_mean(loss)
e^(2) = w_2 e^(3) * (a^(2) * (1 - a^(2)))
w_2 <-- w_2 - learning_rate * a^(2) * e^(3)
w_1 <-- w_1 - learning_rate * a^(1) e^(2)
现在看来,如果事情继续这样下去,w_1
应该继续学习。也就是说,除非出现以下情况之一:
- 上面的数学在某处不正确,或者
a^(2)
在更新一次后变为(非常接近)全零或全w_1
如果你看一个sigmoid曲线的图,你会发现a^(2)
(隐藏层中的激活水平)可能确实都接近0
,如果matmul(X, w_1)
的结果很小(比如,< -6
),或者如果matmul(X, w_1)
的结果很高,则全部接近1
。由于您的初始损失看起来确实相当高(大约490
),我可以想象对w_1
的第一次更新在幅度上太高了,并导致隐藏层在随后的迭代中几乎为全零或全一。
尝试通过尝试打印h
中的值来验证此假设可能会很有用。最好的解决方案实际上是随机初始化所有权重,您还需要它来解决另一个问题(见答案底部)。如果这里的假设是正确的,那么看看规范化输入和/或输出(您目前是否有具有真正高绝对值的输入和/或输出?)和/或降低GradientDescentOptimizer
的学习率可能也是一个好主意。
请注意,w_2
砝码的更新也存在问题。它们确实会更新,但所有权重始终具有相同的值。即使你设法获得非零梯度,因此有意义的更新,由于将所有这些权重初始化为完全相同的值,它们将始终获得完全相同的梯度,完全相同的更新,因此始终保持完全相同。这就是为什么将所有权重初始化为0.01
而不是0.0
是不够的;它们都应该以不同的方式(随机)初始化。