我正在研究数据挖掘问题,我必须找到一对对象之间的相似性。我知道所有的统计距离是什么,但找不到任何定义何时使用哪个统计距离的来源?
我的答案不会是简单的"使用它",因为统计学中没有这样的东西。
我过去使用统计距离(如Mahalanobis)找到了自己,这是Bhattacharyya距离在处理类似问题时的一个特殊情况。我在构建树木时使用 KL 发散(最小生成树等)。
两者之间的主要区别在于Bhattacharyya是一个度量,而KL不是,因此在考虑要提取有关数据点的信息时,您必须考虑到这一点。
简而言之,我会使用Bhattacharyya。