小贝子编程

关于强化学习动作、观察空间大小的问题

我尝试用强化学习(RL(项目自定义环境。

一些例子，比如乒乓球、阿尔蒂、超级马里奥，在这种情况下，动作和观察空间都很小。

但是，我的项目行动，观察空间确实比一些例子大得多。

而且，我将利用这个空间进行至少5000多次的行动和观察。

那么，我如何才能有效地处理大量的行动和观察？

目前，我正在使用Q表学习，所以我使用包装器函数来处理它

但这似乎是非常无效的。

是的，Q表学习非常古老，并且需要非常大量的内存，因为它将Q值存储在表中。在你的情况下，Q表学习似乎还不够好。一个更好的选择是深度Q网络(DQN(，它用网络取代了表，但它并没有那么有效。

至于巨大的观察空间，这很好。但动作空间(5000+(似乎太大了，需要大量时间才能收敛。为了减少训练时间，我推荐PPO。

相关内容