目前我正在使用RL代理DQN来预测动作和更新动作值函数。但是如果我有一个约束来运行一个特定的动作n次,我能在DQN中有一个约束来指定代理执行动作吗?如果是,我怎么可能做到(使用TF)?
提前谢谢你
重复n步。如果你使用的是健身房的环境,也可以使用SuperSuit之类的包装器。SuperSuit为此提供了sticky_actions_v0
或frame_skip_v0
。