如何使用相扑的流量数据作为在python中使用的RL环境

我正在尝试在交通信号控制上使用强化学习。我注意到我必须首先设置我的环境。问题是，我已经设置了地图、路口的车辆和红绿灯，我需要训练我的代理在这种环境下采取行动，我不知道如何使用这些交通数据在python中定义我的RL环境。如果有人能帮我，我真的很感激。非常感谢。

如果您已经收集了数据，那么就不需要环境了。你将直接使用轨迹——状态、行动和奖励的序列。

对于RL，你需要一个奖励信号，你有这个吗？

如果您正在询问如何创建模拟环境，有很多方法可以做到这一点，但其中会有一些涉及。这是我和我实验室的其他人正在开发的一个存储库，它是一个在python中开发代理模拟(包括RL模拟环境(的框架，尽管它还处于起步阶段(对无耻的自我宣传感到抱歉(-我们将欢迎认真的贡献！

为了完整性，还有其他框架存在，最值得注意的是gym。

相关内容