我是强化学习和RL代理训练的新手。
我对奖励公式有疑问,从给定的状态来看,如果一个代理人采取了一个好的行动,我就会给予积极的奖励,如果这个行为是坏的,我就会给予消极的奖励。因此,如果我在座席采取良好行动时给予他非常高的积极奖励,例如与负奖励相比,正值是正值的 100 倍,它会在培训期间帮助座席吗?
直觉上我觉得,这对座席培训有帮助,但这种扭曲的奖励结构会有什么弊端吗?
好吧,一般来说,我(根据我的经验的个人意见(认为奖励应该相对于它对代理的影响。如果问题是奖励稀少,你可以看看这个Arxiv Insights Youtube,看看如何解决这个问题。
我可以举一个可能具有挑战性的例子:如果奖励比坏奖励是负面的要积极得多,那么代理可能不会太在意它是否冒着最终进入负奖励的州以获得大的积极奖励的风险。因此,您最终可能会遇到有风险的代理。