是否有任何符合OpenAI Gym标准的接口实现用于连续动作空间?



是否有任何符合OpenAI Gym的接口实现用于连续动作空间? 如果是,它是否支持多代理环境? 我正在研究多代理 DDPG 实施,但找不到合适的基线环境。

健身房中的多代理 RL

OpenAI Gym 没有为多代理 RL 环境提供很好的界面,但是,通过具有

env.step(action_n: List) -> observation_n: List

获取与每个代理对应的操作列表,并输出一个观察列表,每个代理一个。

如果要重新实现 MADDPG,还可以使用 Ryan Lowe 本人提供的多代理粒子环境的实现。

当然,重新实现环境不会有什么坏处。

连续动作空间

在多智能体粒子环境的链接实现中,您可以通过将此行代码更改为 False 来将操作空间的类型从离散更改为连续。

但是,以前尝试过这个,我可以告诉你,这将导致 MADDPG 的性能变差。

相关内容

  • 没有找到相关文章