为二进制向量的数据帧计算相似性矩阵的最佳方法是什么



我有一个大小为m x n的二进制向量数据帧,其中有一些未填充的值,如下面的示例

col1 col2 col3 col4 col5
V0    1         0    1
V1    1    1         0
V2    0    1    0    1
V3         0    0

我想在这个数据帧上计算一个相似性矩阵,这样我就可以得到任意2个向量之间的相似性得分。

最好的方法是什么?

注意:我尝试用2替换NULL值,并在数据帧上应用scipy库中的余弦相似性。结果矩阵不准确/不正确。

您可能希望将pdist或cdist与dice、jaccard或hamming等二进制距离函数一起使用(请参阅本页末尾的这些函数列表(。

相关内容

最新更新