神经网络是如何用于强化学习的



到目前为止,我有一个游戏,我运行了1000轮游戏,执行随机移动。董事会的状态、奖励和采取的行动都被存储起来。

然后玩同样的游戏,但在选择每个动作之前,要进行比较检查,看看以前的观察结果与这次类似。

然后,当创建一个类似观察的列表时,该列表将被划分为该观察之后采取的每个行动的列表。

然后选择具有最高平均奖励的列表并且采取该动作。(单个选项大约需要10秒(。

我用tensorflow构建了大量的神经网络,但从未完全从头开始。

我制作了几层神经元,只是不知道如何使用它们。

神经网络可以在强化学习中以多种方式使用。

一些网络经过训练,对于给定的状态和动作,它们将输出你通过执行该动作从该状态获得的奖励。然后,有了这个网络,对于每个州,你只需贪婪地选择能获得最高奖励的行动。

其他网络经过训练,对于每个状态,它们将提供动作的分布,然后您选择概率最高的动作。

对于您的案例,使用网络的一种方法是学习如何从董事会状态和行动映射到您的奖励。

最新更新