我们可以使用RL算法吗?这些算法是为离散动作空间环境的连续动作空间实现的,只需将(健身房环境的(连续空间范围内的代理动作映射(或取整(到openai gym-env中的离散动作即可?
是的,它是双向的,对于具有动作空间A_E的环境E,您可以定义一个包装器W,使W(A(具有您选择的动作空间A_W,并且它只转换介于两者之间的动作。现在这是最有效的方法吗?可能不会,通常利用问题的任何已知结构都会带来更好的结果。
我们可以使用RL算法吗?这些算法是为离散动作空间环境的连续动作空间实现的,只需将(健身房环境的(连续空间范围内的代理动作映射(或取整(到openai gym-env中的离散动作即可?
是的,它是双向的,对于具有动作空间A_E的环境E,您可以定义一个包装器W,使W(A(具有您选择的动作空间A_W,并且它只转换介于两者之间的动作。现在这是最有效的方法吗?可能不会,通常利用问题的任何已知结构都会带来更好的结果。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium