学习率衰减到累积奖励?



在深度强化学习中,有没有办法将学习率衰减到累积奖励。我的意思是,当代理能够学习并最大化奖励时,衰减学习率?

通常使用步数来修改学习率,因此肯定可以修改学习率作为累积奖励的函数。

一个风险是你在训练开始时不知道你在寻求什么奖励,所以过早降低学习率是一个常见问题。如果你的目标是 80 的奖励,当你达到这个值时,学习率急剧下降,你永远不会知道你的算法是否可以达到 90,因为学习将在 80 停止。

另一个问题是将目标定得太高。如果您将目标设置为 100,这意味着学习率不会随着您达到 85 而降低,则不稳定性可能意味着算法无法很好地收敛以达到 90。

所以总的来说,我认为人们会尝试各种学习计划,如果可能的话,有时会让算法运行大量时间,看看它们是否收敛。

相关内容

  • 没有找到相关文章

最新更新