是否对动量对随机梯度下降的影响进行了彻底的探索



在重量更新中使用随机梯度下降时,许多CNN论文使用动量= 0.9。使用它有一个很好的逻辑,但是我正在寻找的是对该参数效果的彻底探索。我已经浏览了许多论文,这里和那里都有一些见解,但是我无法进行全面的探索。另外,它在不同的计算机视觉任务(例如分类,分割,检测)中是否有用?

这是有关此主题的好评论论文。。史密斯https://arxiv.org/pdf/1803.09820.pdf

最新更新