具有较大状态的动态环境中的强化学习



我有一个500*500网格,具有7个不同的惩罚值。我需要制作一个RL代理,其动作空间包含11个动作。(左,右,向下,4个对角线,加速,加速和正常速度(。我怎么解决这个问题?选择的"行动"的概率为0.8。否则选择随机操作。另外,惩罚值可以动态变化。

请看一下Sutton Incopleteideas.net/sutton/sutton/ebook/ebook/node15.html的这一章,尤其是他在后面部分的实验。您的问题似乎类似于N臂匪徒,因为每个武器都返回正常的奖励分布。尽管本章主要关注探索,但问题适用。

另一种看待它的方法是,如果您的州确实返回罚款的正态分布,您将需要充分探索域以获得国家的均值,即动作元组。在这些情况下的平均值是Q*,它将为您提供最佳政策。

作为后续行动,如果状态空间太大或连续,则可能值得通过功能近似器来研究概括。虽然适用相同的收敛规则,但在某些情况下,函数近似呈问题。我会说这超出了讨论的范围。

最新更新