为什么Q学习的学习率在随机环境中很重要



如维基百科所述https://en.wikipedia.org/wiki/Q-learning#Learning_Rate,对于随机问题,使用学习率对收敛性很重要。尽管我试图找到";直觉;在没有任何数学证明的情况下,我找不到原因。

具体来说,我很难理解为什么缓慢更新q值对随机环境有益。有人能解释一下直觉或动机吗?

在足够接近收敛之后,如果学习率过高,随机环境将使其无法收敛。

把它想象成一个滚进漏斗的球。球滚动的速度就像学习速度。因为它是随机的,球永远不会直接进入洞里,它总是只是错过它。现在,如果学习率太高,那么仅仅错过是灾难性的。它会射过洞。

这就是为什么你想要稳步降低学习率。这就像球由于摩擦而失去速度,无论它来自哪个方向,都会让它落入洞里。

最新更新