如何告诉我的自我播放神经网络过于适应

我有一个旨在播放连接4的神经网络，它衡量了游戏状态对玩家1或玩家2的值。

为了训练它，我正在为n的游戏数与自身对抗。

我发现，即使每100场比赛的平均平均水平在100,000个时代不断改善。

（我通过在http://riddles.io上挑战排名最高的球员来确定这一点）

因此，我得出的结论是已经发生了过度拟合。

考虑到自我玩法，您如何成功地测量/确定/估计发生过度拟合的情况？即，我如何确定何时停止自我玩法？

我对强化学习不太熟悉，成为一个有监督的学习人。话虽如此，我觉得您的选择永远不会与监督学习相同。

您需要找到在训练空间之外（再次损失）的输入（和我使用该术语）上的性能的点，开始减少。发生这种情况时，您将终止培训。您需要早期停止。

对于监督学习，这将是通过持有的开发设备来完成的。作为模仿测试集的一种。

在您的情况下，很明显，这将使您的机器人玩一堆真实的人 - 这是对测试集的完美模仿。
这正是您所做的。

缺点足以与真实的人发挥作用。
您可以做些什么来部分偏离现场，而不是暂停训练来进行此测试，而是进行网络的快照，例如每500次迭代，并以一个单独的过程作为机器人开始，并在网络仍在训练的同时进行测试并记录分数。但是，在这种情况下，这并没有真正的帮助，因为我想，即使是1个试用游戏的时间比进行500次训练的时间要长得多。如果您不融合这么快，这仍然适用。

我认为，由于这个问题是如此简单，所以这是出于学习目的。
在此基础上，您可以伪造真实的人。
Connect4是一款具有足够小的游戏空间的游戏，经典的游戏AI应该能够完美地做到。
因此，您可以为其设置一个机器人（作为其Dev-set Equiv），该机器人使用alpha-beta修剪minimax。

对那个有100个迭代器左右的游戏进行游戏，如果您的相对分数开始降低，您就会知道自己已经过度了。

您可以做的另一件事是，首先使它过度合适的可能性降低了。这不会帮助您检测到它，但是如果您使它变得足够困难，则可以在一定程度上假设不是。因此，L1/L2重量处罚。辍学。较小的隐藏尺寸。

您还可以增加训练集的等效范围。而不是纯粹的自我扮演，您可以使用其他机器人的玩法，甚至可能使用不同的超参数设置的其他版本。

，而不是测量/检测过度拟合时开始发生，更容易采取步骤来防止其发生。这样做的两个想法：

，而不是总是让代理人对抗自身，而是要与从自身的较旧版本中随机选择的代理作用。这个想法在精神上与林登对人类和/或alpha-beta搜索引擎进行测试的想法有些相似（这与他在回答的最后一段中的想法非常相似）。但是，这里的目标不是要测试并弄清楚何时开始与对手的测试集降低；目的只是创建一组各种各样的训练对手，以便您的代理人无力仅适合其中一个。我相信[1，2]中也使用了这种方法。
将搜索算法（如MCT）直接合并到训练过程中的代理操作中。NN 搜索（通常由NN偏向）的组合通常比单独使用NN要强一些。因此，您始终可以继续更新NN，以使其行为更像NN 搜索的行为，并且通常会有所改进。在此中，搜索部分不太可能与特定对手相抵触（因为它不是从经验中学到的，所以搜索总是以相同的方式行为）。如果NN独自开始对特定对手过度适应，并开始暗示一般情况下会很糟糕但对特定对手的好处，那么搜索算法应该能够通过过度适应NN来"利用/惩罚"此"错误"，因此向NN提供了反馈，以便再次摆脱过度拟合。可以在[3，4，5]中找到这种方法的示例。

第二个想法可能需要比第一个想法要多得多的工程工作，而且只有在您实际上可以实现MCT等搜索算法（因为您知道游戏规则）之类的搜索算法时，它也有效，但它可能有效更好的。我不确定它是否会更好，我只怀疑它会因为它是在以后的出版物中使用的，结果比使用第一个想法的论文更好。

参考

[1] Silver，D.，Huang，A.，Maddison，C.J.，Guez，A.，Sifre，L.，van den driessche，G.。。和Hassabis，D。（2016）。通过深度神经网络和树木搜索来掌握GO的游戏。自然，第529卷，第7587页，第484-489页。

[2] Bansal，T.，Pachocki，J.，Sidor，S.，Sutskever，I。和Mordatch，I。（2017）。通过多代理竞争的新兴复杂性。 arxiv：1710.03748v2 。

[3] Anthony，T。W.，Tian，Z。和Barber，D。（2017年）。通过深度学习和树木搜索快速而缓慢地思考。 arxiv：1705.08439v4 。

[4] Silver，D.，Schrittwieser，J.，Simonyan，K，Antonoglou，I.，Huang，A.，Guez，A.，Hubert，T.，Baker，L.博尔顿（A.掌握没有人类知识的游戏。自然，卷。550，第7676页，第354-359页。

[5] Silver，D.，Hubert，T.，Schrittweiser，J.，Antonoglou，I.，Lai，M.，Guez，A.，Lanctot，M.，Sifre，L.，Kumaran，D.，Graepel，T.，Lillicrap，T.，Simonyan，K。和Hassabis，D。（2017c）。通过一般的增强学习算法来掌握国际象棋和shogi。 arxiv：1712.01815v1 。

相关内容

最新更新

热门标签：