为什么要在强化学习中引入马尔可夫性质



作为深度强化学习的初学者,我很困惑为什么我们应该在强化学习中使用马尔可夫过程,以及它给强化学习带来了什么好处。此外,马尔可夫过程要求在";已知的";条件;现在";与";未来";。为什么一些深度强化学习算法可以使用RNN和LSTM?这是否违反了马尔可夫过程的假设?

马尔可夫属性用于优化过程中的数学运算。然而,请记住,它比你想象的更普遍适用。例如,如果在某个棋盘游戏中,你需要知道游戏的最后三个状态,这可能违反了马尔可夫属性;然而,如果你简单地重新定义你的";状态";作为最后三个状态的串联,现在您又回到了MDP中。

这个假设说,当前状态提供了关于过去代理环境迭代的所有方面所需的所有信息,这对系统的未来产生了影响。这是一个重要的定义,因为你可以将过程的动力学定义为p(s’,r|s,a(。在实践中,您不需要查看和计算系统的所有先前状态来确定下一个可能的状态。

最新更新