稳定基线3模型中基于LSTM的策略



我正在尝试使用稳定基线3库创建PPO模型。我想使用一个带有LSTM层的策略网络。然而,我在图书馆的网站上找不到这样的可能性,尽管它存在于以前版本的稳定基线中https://stable-baselines.readthedocs.io/en/master/modules/policies.html#stable_baselines.common.policies.MlpLstmPolicy.

这种可能性存在于稳定基线3(非稳定基线(中吗?如果没有,我还有其他可能做到这一点吗?Thanx。

来自迁移文档。

https://stable-baselines3.readthedocs.io/en/master/guide/migration.html

突破性变化¶

不支持的LSTM策略(MlpLstmPolicyCnnLstmPolicy(目前(参见PR#53,了解经常性PPO实现(

目前稳定基线3上不存在此功能。

然而,在他们的贡献回购(稳定基线3-对照(中,他们有一个带有LSTM策略的PPO的实验版本。我自己没有尝试过,但根据这个拉动请求,它是有效的。

你可以在feat/ppo-lstm分支上找到它,它可能很快就会合并到master上。

相关内容

  • 没有找到相关文章

最新更新