我有两个数据集,我想找出它们之间的相关性。
数据集代表两支球队的比赛结果,其中1代表赢,0代表平,-1代表输。
。5场比赛
team1 = [1,1,0,-1,0]
team2 = [0,1,0,1,0]
计算皮尔逊相关系数是可以的,直到一个球队赢得了最后5场比赛,因此是一个常量数组,例如
team1 = [1,1,1,1,1]
在这种情况下,无论team2做了什么,pearson相关系数都是未定义的。
我觉得这很奇怪,因为如果team2也赢得了5场比赛中的大部分,那么相关性应该接近于1,而不是没有定义。
,反之亦然,如果team2输掉了大部分比赛,根据我的理解,相关性应该接近于-1。
我做错了什么吗?或者我的数据需要另一种方法来发现数据集之间的关系有多强?
提前感谢
所以,我发现了这个很好的资源:http://www.ashukumar27.io/similarity_functions/
我想我会选择欧几里得距离,这更适合我的用例