您可能会推荐哪种训练方法来训练基于注意力的序列以序列神经机器翻译模型?SGD,Adadelta,Adam还是更好的东西?请给出一些建议,谢谢。
使用Adam或Adadelta或Rmsprop等自适应梯度算法。我倾向于使用亚当,并始终与剪切的梯度结合。
自适应梯度算法的每个参数具有学习率。当您拥有某些参数可能更稀疏(提高其学习率(或稀疏(降低其学习率(的模型时,这将非常有帮助。如果您正在使用诸如神经机器翻译之类的东西,那么这种稀疏是一个问题。我想亚当在计算上更昂贵,但给出了良好的结果。