我正在尝试使用稳定基线3库创建PPO模型。我想使用一个带有LSTM层的策略网络。然而,我在图书馆的网站上找不到这样的可能性,尽管它存在于以前版本的稳定基线中https://stable-baselines.readthedocs.io/en/master/modules/policies.html#stable_baselines.common.policies.MlpLstmPolicy.
这种可能性存在于稳定基线3(非稳定基线(中吗?如果没有,我还有其他可能做到这一点吗?Thanx。
来自迁移文档。
https://stable-baselines3.readthedocs.io/en/master/guide/migration.html
突破性变化¶
不支持的LSTM策略(
MlpLstmPolicy
、CnnLstmPolicy
(目前(参见PR#53,了解经常性PPO实现(
目前稳定基线3上不存在此功能。
然而,在他们的贡献回购(稳定基线3-对照(中,他们有一个带有LSTM策略的PPO的实验版本。我自己没有尝试过,但根据这个拉动请求,它是有效的。
你可以在feat/ppo-lstm
分支上找到它,它可能很快就会合并到master
上。