如何为q-learning设置状态空间

这显然是非常明显和基本的，因为我找不到任何关于它的教程，但我如何为q-learning环境设置状态空间？

如果我理解正确的话，每个状态都需要与一个值相关联，对吧？如果是，如果我有多个输入变量，该怎么办？本质上；

stateSpace = ???

一旦我有了状态空间，我该如何改变状态？假设它基于3个变量，V1、V2和V3。q学习算法只接收这种状态的单个数字表示，对吧？如何使用变量和状态空间返回表示状态的单个值？

如果这是显而易见的/基本的，我很抱歉，谢谢你抽出时间。

我认为您可能对Q学习中涉及的参数有点困惑。以下是我们的产品：

奖励：对进入一个州的代理人给予的奖励。这可以是正数也可以是负数，但应该是单个数字。

状态：有关游戏状态的所有相关信息。

观察：一个张量，包含代理可以了解的关于游戏状态的信息。

Q值：采取某种行动的"质量"。

我们可以通过比较我们对某一行动的预期质量(从长远来看，它能在多大程度上提高我们的回报(和我们在采取行动后的实际发现来训练网络。

在每一次勾选中，我们都在更新状态，然后代理进行新的观察，为其提供新的输入值。

相关内容