Q-Learning中级奖励

如果在包含中间奖励的特定纸牌游戏中，Q-Learning代理在对抗对手时表现明显更好，这会显示算法中的缺陷还是实现中的缺陷？

如果没有关于Q-Learning代理的更多具体信息，很难回答这个问题。你可以把寻求即时回报称为剥削率，这通常与探索率成反比。应该可以在您的实施中配置这一点和学习率。另一个重要因素是勘探战略的选择，你不应该在寻找有助于做出这一选择的资源方面遇到任何困难。例如：

http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf

https://www.cs.mcgill.ca/~vkules/bandits.pdf

直接回答这个问题，可能是一个实现、配置、代理架构或学习策略的问题，导致立即利用和关注局部极小值。

相关内容