我有一个关于强化学习中的奖励的问题。这句话是真的吗?如果是,为什么呢?提前谢谢你
每次的奖励(对于来自相同状态的相同动作)不需要相同。
对于确定性完全信息博弈,这是正确的。想想围棋或国际象棋之类的游戏。但对于其他游戏来说,相同状态和动作的奖励主要取决于游戏当前的内部状态。
我有一个关于强化学习中的奖励的问题。这句话是真的吗?如果是,为什么呢?提前谢谢你
每次的奖励(对于来自相同状态的相同动作)不需要相同。
对于确定性完全信息博弈,这是正确的。想想围棋或国际象棋之类的游戏。但对于其他游戏来说,相同状态和动作的奖励主要取决于游戏当前的内部状态。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium