例如,DQN 中的状态值只需要 0 到 1 状态 = [
0, 0, 0, 1, 1, 1, 1, 0, 1, 0]或者它可以具有值大于 1 EH 的状态 状态 = [6, 5, 4, 1, 1, 1, 2, 3, 15, 10]
状态本身不需要在价值上受到限制。您可以拥有任意大的范围。但出于训练目的,建议将状态值归一化在 [0,1] 范围内,以便神经网络使用的函数近似不会饱和。
例如,DQN 中的状态值只需要 0 到 1 状态 = [
0, 0, 0, 1, 1, 1, 1, 0, 1, 0]或者它可以具有值大于 1 EH 的状态 状态 = [6, 5, 4, 1, 1, 1, 2, 3, 15, 10]
状态本身不需要在价值上受到限制。您可以拥有任意大的范围。但出于训练目的,建议将状态值归一化在 [0,1] 范围内,以便神经网络使用的函数近似不会饱和。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium