稳定基线3模型中基于LSTM的策略

我正在尝试使用稳定基线3库创建PPO模型。我想使用一个带有LSTM层的策略网络。然而，我在图书馆的网站上找不到这样的可能性，尽管它存在于以前版本的稳定基线中https://stable-baselines.readthedocs.io/en/master/modules/policies.html#stable_baselines.common.policies.MlpLstmPolicy.

这种可能性存在于稳定基线3(非稳定基线(中吗？如果没有，我还有其他可能做到这一点吗？Thanx。

来自迁移文档。

https://stable-baselines3.readthedocs.io/en/master/guide/migration.html

突破性变化¶

不支持的LSTM策略(MlpLstmPolicy、CnnLstmPolicy(目前(参见PR#53，了解经常性PPO实现(

目前稳定基线3上不存在此功能。

然而，在他们的贡献回购(稳定基线3-对照(中，他们有一个带有LSTM策略的PPO的实验版本。我自己没有尝试过，但根据这个拉动请求，它是有效的。

你可以在feat/ppo-lstm分支上找到它，它可能很快就会合并到master上。

相关内容

最新更新

热门标签：