使用 ray 的 PPO 算法处理事件时出错



我正在使用由ray提供的PPO算法来训练RL代理以稳定流量。在训练过程中,我一直看到 ValueError("观察超出预期值范围",Box(500,( 屏幕截图

但是,我不知道我的脚本的哪个部分导致了这个问题,或者它是否是由流引起的?

是的,这是由 RLlib 升级引起的一个非常小的错误。基本上,我们过去使用的 Ray 版本对限制观察空间的边界并不严格,但新版本的 Ray 确实如此。您可以通过进入相应的环境并将观察空间的低值和高值更改为稍微宽松一点来解决此问题(例如,-2 到 2 而不是当前的 -1 到 1(

最新更新