n个二进制向量的距离度量



i分别具有n和m二进制向量(长度为1500(。我需要一个指标,可以说所有这些n向量和m矢量是多么相似(距离度量(。输出应为total_distance_of_n_vectors和total_distance_of_m_vectors。如果total_distance_of_n_vectors> total_distance_of_m_vector

我应该使用哪个指标?我想到了jaccard的相似性。但是我无法在这种情况下说。我应该彼此找到每个向量的距离以找到总距离或其他东西吗?

有两个与您的问题相关的概念,您应该单独考虑。

相似度度量

独立于您的评分机制,您应该找到一个最适合您数据的相似性度量。它可以是欧几里得的距离(不适合1500维空间(,余弦(基于点产品(距离或汉密尔顿距离(假设您的输入特征是完全独立的,很少是这种情况(。

(。

您的距离功能可能会发生很多,您应该找到一个对数据有意义的。

评分机制

您提到 total_distance_of_vectors 在您的问题中,这可能不是您想要的。如果n >> m,几乎可以肯定的是,n向量的总距离总和大于M向量的总距离。

您要寻找的是集合成员之间距离的平均值。然后,根据天气,您希望平均对离群值敏感,您可以平均距离或平均距离的平均值。

如果要更深入地挖掘,也可以获得两组中距离的平均值和差异并比较分布。

最新更新