如何告诉我的自我播放神经网络过于适应



我有一个旨在播放连接4的神经网络,它衡量了游戏状态对玩家1或玩家2的值。

为了训练它,我正在为n的游戏数与自身对抗。

我发现,即使每100场比赛的平均平均水平在100,000个时代不断改善。

(我通过在http://riddles.io上挑战排名最高的球员来确定这一点)

因此,我得出的结论是已经发生了过度拟合。

考虑到自我玩法,您如何成功地测量/确定/估计发生过度拟合的情况?即,我如何确定何时停止自我玩法?

我对强化学习不太熟悉,成为一个有监督的学习人。话虽如此,我觉得您的选择永远不会与监督学习相同。

您需要找到在训练空间之外(再次损失)的输入(和我使用该术语)上的性能的点,开始减少。发生这种情况时,您将终止培训。您需要早期停止。

对于监督学习,这将是通过持有的开发设备来完成的。作为模仿测试集的一种。

在您的情况下,很明显,这将使您的机器人玩一堆真实的人 - 这是对测试集的完美模仿。
这正是您所做的。

缺点足以与真实的人发挥作用。
您可以做些什么来部分偏离现场,而不是暂停训练来进行此测试,而是进行网络的快照,例如每500次迭代,并以一个单独的过程作为机器人开始,并在网络仍在训练的同时进行测试并记录分数。但是,在这种情况下,这并没有真正的帮助,因为我想,即使是1个试用游戏的时间比进行500次训练的时间要长得多。如果您不融合这么快,这仍然适用。

我认为,由于这个问题是如此简单,所以这是出于学习目的。
在此基础上,您可以伪造真实的人。
Connect4是一款具有足够小的游戏空间的游戏,经典的游戏AI应该能够完美地做到。
因此,您可以为其设置一个机器人(作为其Dev-set Equiv),该机器人使用alpha-beta修剪minimax。

对那个有100个迭代器左右的游戏进行游戏,如果您的相对分数开始降低,您就会知道自己已经过度了。

您可以做的另一件事是,首先使它过度合适的可能性降低了。这不会帮助您检测到它,但是如果您使它变得足够困难,则可以在一定程度上假设不是。因此,L1/L2重量处罚。辍学。较小的隐藏尺寸。

您还可以增加训练集的等效范围。而不是纯粹的自我扮演,您可以使用其他机器人的玩法,甚至可能使用不同的超参数设置的其他版本。

,而不是测量/检测过度拟合时开始发生,更容易采取步骤来防止其发生。这样做的两个想法:

  1. ,而不是总是让代理人对抗自身,而是要与从自身的较旧版本中随机选择的代理作用。这个想法在精神上与林登对人类和/或alpha-beta搜索引擎进行测试的想法有些相似(这与他在回答的最后一段中的想法非常相似)。但是,这里的目标不是要测试并弄清楚何时开始与对手的测试集降低;目的只是创建一组各种各样的训练对手,以便您的代理人无力仅适合其中一个。我相信[1,2]中也使用了这种方法。

  2. 将搜索算法(如MCT)直接合并到训练过程中的代理操作中。NN 搜索(通常由NN偏向)的组合通常比单独使用NN要强一些。因此,您始终可以继续更新NN,以使其行为更像NN 搜索的行为,并且通常会有所改进。在此中,搜索部分不太可能与特定对手相抵触(因为它不是从经验中学到的,所以搜索总是以相同的方式行为)。如果NN独自开始对特定对手过度适应,并开始暗示一般情况下会很糟糕但对特定对手的好处,那么搜索算法应该能够通过过度适应NN来"利用/惩罚"此"错误",因此向NN提供了反馈,以便再次摆脱过度拟合。可以在[3,4,5]中找到这种方法的示例。

第二个想法可能需要比第一个想法要多得多的工程工作,而且只有在您实际上可以实现MCT等搜索算法(因为您知道游戏规则)之类的搜索算法时,它也有效,但它可能有效更好的。我不确定它是否会更好,我只怀疑它会因为它是在以后的出版物中使用的,结果比使用第一个想法的论文更好。


参考

[1] Silver,D.,Huang,A.,Maddison,C.J.,Guez,A.,Sifre,L.,van den driessche,G.。。和Hassabis,D。(2016)。通过深度神经网络和树木搜索来掌握GO的游戏。自然,第529卷,第7587页,第484-489页。

[2] Bansal,T.,Pachocki,J.,Sidor,S.,Sutskever,I。和Mordatch,I。(2017)。通过多代理竞争的新兴复杂性。 arxiv:1710.03748v2

[3] Anthony,T。W.,Tian,Z。和Barber,D。(2017年)。通过深度学习和树木搜索快速而缓慢地思考。 arxiv:1705.08439v4

[4] Silver,D.,Schrittwieser,J.,Simonyan,K,Antonoglou,I.,Huang,A.,Guez,A.,Hubert,T.,Baker,L.博尔顿(A.掌握没有人类知识的游戏。自然,卷。550,第7676页,第354-359页。

[5] Silver,D.,Hubert,T.,Schrittweiser,J.,Antonoglou,I.,Lai,M.,Guez,A.,Lanctot,M.,Sifre,L.,Kumaran,D.,Graepel,T.,Lillicrap,T.,Simonyan,K。和Hassabis,D。(2017c)。通过一般的增强学习算法来掌握国际象棋和shogi。 arxiv:1712.01815v1

最新更新