可以在连续空间的RL库中实现的强化学习算法是否可以通过四舍五入用于离散空间



我们可以使用RL算法吗?这些算法是为离散动作空间环境的连续动作空间实现的,只需将(健身房环境的(连续空间范围内的代理动作映射(或取整(到openai gym-env中的离散动作即可?

是的,它是双向的,对于具有动作空间A_E的环境E,您可以定义一个包装器W,使W(A(具有您选择的动作空间A_W,并且它只转换介于两者之间的动作。现在这是最有效的方法吗?可能不会,通常利用问题的任何已知结构都会带来更好的结果。

最新更新