任何机构都可以清楚地解释何时使用哪种统计距离,例如KL-散度,Bhattacharyya距离?



我正在研究数据挖掘问题,我必须找到一对对象之间的相似性。我知道所有的统计距离是什么,但找不到任何定义何时使用哪个统计距离的来源?

我的答案不会是简单的"使用它",因为统计学中没有这样的东西。

我过去使用统计距离(如Mahalanobis)找到了自己,这是Bhattacharyya距离在处理类似问题时的一个特殊情况。我在构建树木时使用 KL 发散(最小生成树等)。

两者之间的主要区别在于Bhattacharyya是一个度量,而KL不是,因此在考虑要提取有关数据点的信息时,您必须考虑到这一点。

简而言之,我会使用Bhattacharyya。

最新更新