Rand和Jaccard相似性指数之间的差异

Rand和Jaccard相似性/验证指数之间的理论差异是什么？

我对方程不感兴趣，但对它们的差异的解释感兴趣。

我知道Jaccard索引忽略了真正的负片，但为什么呢？这会产生什么样的影响？

感谢

我在计算生物学硕士论文中使用了这些，所以希望我能够以一种有助于你的方式回答这个问题-

较短的版本-

J=TP/（TP+FP+FN），而R=（TP+TN）/（TP+TN+FP+FN

当然，根据定义，TN被Jaccard忽略了。对于非常大的数据集，TN的数量可能非常巨大，这就是我的论文中的情况。因此，这个术语推动了所有的分析。当我从rand指数转向Jaccard指数时，我忽略了TN的贡献，能够更好地理解事情。

较长的版本-

Rand和Jaccard指数比通常的反应特征统计（如敏感性/特异性等）更常用于比较分区/聚类。但在某种意义上，它们可以扩展到真阳性或真阴性的概念。让我们更详细地介绍一下

对于一组元素S={a1，a2…an}，我们可以定义两个不同的聚类算法X和Y，它们将它们分别划分为r个聚类——X1，X2…Xr聚类和Y1，Y2…Yr聚类。组合所有的X簇或所有的Y簇，您将再次获得完整的S集。

现在，我们定义：-A=X中同一集合和Y中同一集的S中元素对的数量B=S中X中不同集合和Y中不同集合中元素对的数量C=在X中处于同一集合且在Y中处于不同集合的S中元素对的数量D=在X中处于不同集合且在Y 中处于同一集合的S中元素对的数量

兰德指数定义为-R=（A+B）/（A+B+C+D）现在这样看——让X是诊断测试的结果，而Y是数据点上的实际标签。因此，A，B，C，D然后减少到TP，TN，FP，FN（按顺序）。基本上，R可以简化为我上面给出的定义。

现在，Jaccard索引-

对于两个集合M，N，Jaccard索引忽略了聚类算法X和Y的不同集合中的元素，即忽略了B，这是真正的否定。

J＝（A）/（A+C+D），其减小为J＝（TP）/（TP+FP+FN）。

这就是两个统计数据根本不同的原因。如果你想了解更多关于这些的信息，这里有一篇很好的论文，还有一个可能对你有用的网站-

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf

http://clusteval.sdu.dk/313/clustering_quality_measures/542

希望这能有所帮助！

相关内容