近端策略优化算法论文 - "KL"操作的定义?



在关于近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

在等式(4(中,作者使用用KL[]表示的运算。不幸的是,他们从未给出定义。

我的问题:

KL[]操作代表什么?

也许是吉隆坡的分歧?

KL散度用于比较两个概率分布之间的差异。