Barto和Sutton的《强化学习导论》一书提到了以下关于非平稳RL问题的内容-
"我们经常遇到强化学习问题,这些问题实际上是非平稳的。在这种情况下,对最近的奖励比长期的奖励更重视是有意义的。"-https://webdocs.cs.ualberta.ca/~sutton/book/ebook/nod20.html)
我对此并不完全信服。例如,任务是为迷宫寻找出口的探索者代理实际上可能会失败,因为它在遥远的过去做出了错误的选择
你能简单地解释一下为什么把最近的奖励加权得更高是有意义的吗?
如果问题是非平稳的,那么过去的经验越来越过时,应该给予较低的权重。这样,如果一个探险家在遥远的过去犯了一个错误,这个错误就会被最近的经历所覆盖。
文本显式引用非平稳问题。在这样的问题中,MDP特性发生变化。例如,环境可能发生变化,因此转换矩阵或奖励函数可能不同。在这种情况下,过去收集的奖励可能不再重要。
在您的例子中,MDP是固定的,因为迷宫永远不会改变,所以您的陈述是正确的。如果(例如)迷宫的出口会根据某种规律发生变化(你不知道),那么对最近的奖励进行更多的权衡是有意义的(例如,如果奖励是从特工位置到出口的曼哈顿距离)。
一般来说,处理非平稳MDP是非常复杂的,因为通常你不知道特性是如何变化的(在上面的例子中,你不知道出口位置是如何改变的)。相反,如果你知道决定环境如何变化的规律,你应该把它包括在MDP模型中。