使用 DQN 训练游戏的多个级别的规则是什么?



我正在尝试为各种游戏创建基准测试,每个游戏有 5 个级别。目标是训练模型首先在 3 个级别上收敛,然后测量其余 2 个级别的学习曲线。

对于如何在多个级别上训练模型,是否有一般规则?培训是否应该在一个又一个级别上进行?

非常感谢您的帮助。

假设您总共能够训练N个级别(在您可能拥有的时间限制内(。

我不建议使用以下设置:

  1. 在第一层训练N / 3
  2. 在第二层训练N / 3
  3. 在第二层训练N / 3

这种设置的风险在于,你首先学会在第一级玩得很好,然后忘记你学到的一切并"过度拟合"到第二关,然后再次忘记并过度拟合到第三级。


您需要确保在整个训练过程中始终保持良好的水平组合,因为最终目标是概括并在(看不见的(级别 4 和 5 上表现良好。

为此,我建议使用以下设置之一:

  1. 在第一级训练一次
  2. 在第二级训练一次
  3. 在第三级训练一次
  4. 再次重复第一步,直到您训练了最多的N

或者:

  1. 随机选择前三个级别中的一个进行训练。
  2. 重复直到训练N次。

使用更复杂的策略可能会做得更好。例如,您可以尝试跟踪过去X次您玩过某个关卡的每个关卡的平均表现,并优先考虑您表现不佳的关卡(因为显然你还有很多东西需要学习(。例如,这可以通过多臂老虎机策略(如UCB1(来完成,您将最近的负面表现用作"奖励"。

可能还值得研究通用视频游戏AI竞赛(http://gvgai.net/(的学习轨道。我相信竞争正是你提到的三个训练级别加上每场比赛两个级别的评估设置(也许这甚至是你的问题的来源?您可以查看本次比赛的各个参与者在做什么(如果他们的源代码可用(,和/或查找有关比赛/竞争作品的文献。

最新更新