如何为q-learning设置状态空间



这显然是非常明显和基本的,因为我找不到任何关于它的教程,但我如何为q-learning环境设置状态空间?

如果我理解正确的话,每个状态都需要与一个值相关联,对吧?如果是,如果我有多个输入变量,该怎么办?本质上;

stateSpace = ???

一旦我有了状态空间,我该如何改变状态?假设它基于3个变量,V1、V2和V3。q学习算法只接收这种状态的单个数字表示,对吧?如何使用变量和状态空间返回表示状态的单个值?

如果这是显而易见的/基本的,我很抱歉,谢谢你抽出时间。

我认为您可能对Q学习中涉及的参数有点困惑。以下是我们的产品:

奖励:对进入一个州的代理人给予的奖励。这可以是正数也可以是负数,但应该是单个数字。

状态:有关游戏状态的所有相关信息。

观察:一个张量,包含代理可以了解的关于游戏状态的信息。

Q值:采取某种行动的"质量"。

我们可以通过比较我们对某一行动的预期质量(从长远来看,它能在多大程度上提高我们的回报(和我们在采取行动后的实际发现来训练网络。

在每一次勾选中,我们都在更新状态,然后代理进行新的观察,为其提供新的输入值。

最新更新