具有较大状态的动态环境中的强化学习

我有一个500*500网格，具有7个不同的惩罚值。我需要制作一个RL代理，其动作空间包含11个动作。(左，右，向下，4个对角线，加速，加速和正常速度(。我怎么解决这个问题？选择的"行动"的概率为0.8。否则选择随机操作。另外，惩罚值可以动态变化。

请看一下Sutton Incopleteideas.net/sutton/sutton/ebook/ebook/node15.html的这一章，尤其是他在后面部分的实验。您的问题似乎类似于N臂匪徒，因为每个武器都返回正常的奖励分布。尽管本章主要关注探索，但问题适用。

另一种看待它的方法是，如果您的州确实返回罚款的正态分布，您将需要充分探索域以获得国家的均值，即动作元组。在这些情况下的平均值是Q*，它将为您提供最佳政策。

作为后续行动，如果状态空间太大或连续，则可能值得通过功能近似器来研究概括。虽然适用相同的收敛规则，但在某些情况下，函数近似呈问题。我会说这超出了讨论的范围。

相关内容