如果在用Keras
制作的LSTM
中使用32的batch_size
,损失函数是应用于每个序列然后求平均值,还是直接应用于所有序列而不考虑每个序列?
提前谢谢。
由于batch_size为1意味着在序列之后更新权重,因此batch_size32意味着在这32个序列之后更新权值。
因此,权重仅在32个序列的这一块之后更新,其中损失是所有这些序列的平均值,因为否则,如果损失将被更新为其本身的每一个,那么它实际上将表示batch_size=1的普通SGD。