强化学习中的神经网络设置和监控



>我有几个关于使用强化学习训练神经网络的问题,例如 DQN:1. 在定义模型时,我们应该使用正则化器还是 dropout?2. 在学习阶段我们可以监控什么?

  1. 这个问题实际上没有一个普遍的答案。这实际上取决于您的环境和您的方法,最好的办法是测试有和没有测试并比较结果。
  2. 您始终可以从监控网络丢失和每集的一些环境性能指标开始(如果您的环境是某个游戏,您可以监控每集的分数(

最新更新