Rand和Jaccard相似性指数之间的差异



Rand和Jaccard相似性/验证指数之间的理论差异是什么?

我对方程不感兴趣,但对它们的差异的解释感兴趣。

我知道Jaccard索引忽略了真正的负片,但为什么呢?这会产生什么样的影响?

感谢

我在计算生物学硕士论文中使用了这些,所以希望我能够以一种有助于你的方式回答这个问题-

较短的版本-

J=TP/(TP+FP+FN),而R=(TP+TN)/(TP+TN+FP+FN

当然,根据定义,TN被Jaccard忽略了。对于非常大的数据集,TN的数量可能非常巨大,这就是我的论文中的情况。因此,这个术语推动了所有的分析。当我从rand指数转向Jaccard指数时,我忽略了TN的贡献,能够更好地理解事情。

较长的版本-

Rand和Jaccard指数比通常的反应特征统计(如敏感性/特异性等)更常用于比较分区/聚类。但在某种意义上,它们可以扩展到真阳性或真阴性的概念。让我们更详细地介绍一下

对于一组元素S={a1,a2…an},我们可以定义两个不同的聚类算法X和Y,它们将它们分别划分为r个聚类——X1,X2…Xr聚类和Y1,Y2…Yr聚类。组合所有的X簇或所有的Y簇,您将再次获得完整的S集。

现在,我们定义:-A=X中同一集合和Y中同一集的S中元素对的数量B=S中X中不同集合和Y中不同集合中元素对的数量C=在X中处于同一集合且在Y中处于不同集合的S中元素对的数量D=在X中处于不同集合且在Y 中处于同一集合的S中元素对的数量

兰德指数定义为-R=(A+B)/(A+B+C+D)现在这样看——让X是诊断测试的结果,而Y是数据点上的实际标签。因此,A,B,C,D然后减少到TP,TN,FP,FN(按顺序)。基本上,R可以简化为我上面给出的定义。

现在,Jaccard索引-

对于两个集合M,N,Jaccard索引忽略了聚类算法X和Y的不同集合中的元素,即忽略了B,这是真正的否定。

J=(A)/(A+C+D),其减小为J=(TP)/(TP+FP+FN)。

这就是两个统计数据根本不同的原因。如果你想了解更多关于这些的信息,这里有一篇很好的论文,还有一个可能对你有用的网站-

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.164.6189&rep=rep1&type=pdf

http://clusteval.sdu.dk/313/clustering_quality_measures/542

希望这能有所帮助!

最新更新