为什么稳定基线评估助手需要环境



稳定基线中的模型在创建时需要一个环境。例如

env = gym.make('CartPole-v1')
model = PPO2(MlpPolicy, env)

评估助手还需要指定环境。即

mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100)

如果评估助手中指定的环境已经在模型中指定,那么它的用途是什么?环境是模型创建和评估中的一个强制性参数。

感谢

我认为这是为了允许在用于训练模型的环境之外的其他环境上进行评估。

最新更新