为什么要在强化学习中引入马尔可夫性质

作为深度强化学习的初学者，我很困惑为什么我们应该在强化学习中使用马尔可夫过程，以及它给强化学习带来了什么好处。此外，马尔可夫过程要求在"；已知的"；条件；现在"；与"；未来"；。为什么一些深度强化学习算法可以使用RNN和LSTM？这是否违反了马尔可夫过程的假设？

马尔可夫属性用于优化过程中的数学运算。然而，请记住，它比你想象的更普遍适用。例如，如果在某个棋盘游戏中，你需要知道游戏的最后三个状态，这可能违反了马尔可夫属性；然而，如果你简单地重新定义你的"；状态"；作为最后三个状态的串联，现在您又回到了MDP中。

这个假设说，当前状态提供了关于过去代理环境迭代的所有方面所需的所有信息，这对系统的未来产生了影响。这是一个重要的定义，因为你可以将过程的动力学定义为p(s’，r|s，a(。在实践中，您不需要查看和计算系统的所有先前状态来确定下一个可能的状态。

相关内容