我有一个大小为m x n的二进制向量数据帧,其中有一些未填充的值,如下面的示例
col1 col2 col3 col4 col5
V0 1 0 1
V1 1 1 0
V2 0 1 0 1
V3 0 0
我想在这个数据帧上计算一个相似性矩阵,这样我就可以得到任意2个向量之间的相似性得分。
最好的方法是什么?
注意:我尝试用2替换NULL值,并在数据帧上应用scipy库中的余弦相似性。结果矩阵不准确/不正确。
您可能希望将pdist或cdist与dice、jaccard或hamming等二进制距离函数一起使用(请参阅本页末尾的这些函数列表(。