在获得了mallet中各个文档的各种概率分布后,我应用了以下代码来计算第一和第二个文档之间的KL散度:
Maths.klDivergence(double[] d1,double[] d2);
我应该如何解释获得的数据?例如,我得到:12.3640…这是什么意思?这两个分布是近还是远?
顾名思义,KL-Divergence给出了一个分布与另一个分布的散度。它基本上是一个分布在接近另一个分布时丢失的信息,这意味着值越小,相似度越高。如果更相似,不会丢失任何信息