如何使用相扑的流量数据作为在python中使用的RL环境



我正在尝试在交通信号控制上使用强化学习。我注意到我必须首先设置我的环境。问题是,我已经设置了地图、路口的车辆和红绿灯,我需要训练我的代理在这种环境下采取行动,我不知道如何使用这些交通数据在python中定义我的RL环境。如果有人能帮我,我真的很感激。非常感谢。

如果您已经收集了数据,那么就不需要环境了。你将直接使用轨迹——状态、行动和奖励的序列。

对于RL,你需要一个奖励信号,你有这个吗?

如果您正在询问如何创建模拟环境,有很多方法可以做到这一点,但其中会有一些涉及。这是我和我实验室的其他人正在开发的一个存储库,它是一个在python中开发代理模拟(包括RL模拟环境(的框架,尽管它还处于起步阶段(对无耻的自我宣传感到抱歉(-我们将欢迎认真的贡献!

为了完整性,还有其他框架存在,最值得注意的是gym。

最新更新