如果在包含中间奖励的特定纸牌游戏中,Q-Learning代理在对抗对手时表现明显更好,这会显示算法中的缺陷还是实现中的缺陷?
如果没有关于Q-Learning代理的更多具体信息,很难回答这个问题。你可以把寻求即时回报称为剥削率,这通常与探索率成反比。应该可以在您的实施中配置这一点和学习率。另一个重要因素是勘探战略的选择,你不应该在寻找有助于做出这一选择的资源方面遇到任何困难。例如:
http://www.ai.rug.nl/~mwiering/GROUP/ARTICLES/Exploration_QLearning.pdf
https://www.cs.mcgill.ca/~vkules/bandits.pdf
直接回答这个问题,可能是一个实现、配置、代理架构或学习策略的问题,导致立即利用和关注局部极小值。