我创建了一个可以玩奥赛罗的小型AI程序。我使用的算法 (MCTS UTC( 有一个参数,我可以在其中调整探索与开发比率。这是一个从 0 到 10 的单个浮点值(无穷大是可能的,但高值没有多大意义(
我可以轻松地让算法使用此参数的不同值与自身进行对比。这将使我知道这两个值中哪个更好。
优化此参数的好算法是什么?
(我更喜欢一种有一些研究或出版物的算法,以深入了解它为什么或何时效果最好。
考虑一个
遗传算法的顺序,其中程序与自己一起玩,获胜者比率保持不变,并且略有变化。 跟踪值。 随着时间的推移,它可能会收敛到"最佳"平衡。