为什么我们在非平稳强化学习中对最近的奖励给予更高的权重

Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容-

"我们经常遇到强化学习问题，这些问题实际上是非平稳的。在这种情况下，对最近的奖励比长期的奖励更重视是有意义的。"-https://webdocs.cs.ualberta.ca/~sutton/book/ebook/nod20.html）
我对此并不完全信服。例如，任务是为迷宫寻找出口的探索者代理实际上可能会失败，因为它在遥远的过去做出了错误的选择
你能简单地解释一下为什么把最近的奖励加权得更高是有意义的吗？

如果问题是非平稳的，那么过去的经验越来越过时，应该给予较低的权重。这样，如果一个探险家在遥远的过去犯了一个错误，这个错误就会被最近的经历所覆盖。

文本显式引用非平稳问题。在这样的问题中，MDP特性发生变化。例如，环境可能发生变化，因此转换矩阵或奖励函数可能不同。在这种情况下，过去收集的奖励可能不再重要。

在您的例子中，MDP是固定的，因为迷宫永远不会改变，所以您的陈述是正确的。如果（例如）迷宫的出口会根据某种规律发生变化（你不知道），那么对最近的奖励进行更多的权衡是有意义的（例如，如果奖励是从特工位置到出口的曼哈顿距离）。

一般来说，处理非平稳MDP是非常复杂的，因为通常你不知道特性是如何变化的（在上面的例子中，你不知道出口位置是如何改变的）。相反，如果你知道决定环境如何变化的规律，你应该把它包括在MDP模型中。

相关内容

最新更新

热门标签：