关于强化学习动作、观察空间大小的问题



我尝试用强化学习(RL(项目自定义环境。

一些例子,比如乒乓球、阿尔蒂、超级马里奥,在这种情况下,动作和观察空间都很小。

但是,我的项目行动,观察空间确实比一些例子大得多。

而且,我将利用这个空间进行至少5000多次的行动和观察。

那么,我如何才能有效地处理大量的行动和观察?

目前,我正在使用Q表学习,所以我使用包装器函数来处理它

但这似乎是非常无效的。

是的,Q表学习非常古老,并且需要非常大量的内存,因为它将Q值存储在表中。在你的情况下,Q表学习似乎还不够好。一个更好的选择是深度Q网络(DQN(,它用网络取代了表,但它并没有那么有效。

至于巨大的观察空间,这很好。但动作空间(5000+(似乎太大了,需要大量时间才能收敛。为了减少训练时间,我推荐PPO。

最新更新