规范化词向量和文档向量之间的相似性?



余弦相似性广泛用于测量两个向量之间的相似性,其中两个可以是词向量或文档向量。

其他的,如曼哈顿、欧几里得、闵可夫斯基等,也很受欢迎。

余弦相似性给出了 0 到 1 之间的数字,因此它似乎是两个向量之间相似性的百分比。欧几里得给出了一些变化很大的数字。

.

当两个向量之间的余弦相似度给出0.78xxx时,包括我在内的人可能会期望"这两个向量有78%的相似性!",这不是两个向量的实际"相似度"。

.

与余弦相似性不同,闵可夫斯基、曼哈顿、堪培拉等甚至给出了一些不在 0 到 1 范围内的大数。

For word1:word2 example
0.78 (cosine, gives between 0 to 1)
9.54 (Euclidean, gives the actual distance between two vectors)
158.417 (Canberra)

.

我预计可能会有一些归一化方法广泛用于表示两个向量之间的实际"相似度"。如果您知道一些,请提供。如果有文章或论文,那就更好了。

For word1:word2 example
0.848 (cosine, transformed as normalized number)
0.758 (Euclidean, normalized between 0 to 1)
0.798 (Canberra, normalized between 0 to 1)

我不希望你提到softmax数字,因为我读过一篇文章,说softmax数字本身不应该被视为实际的百分比。

你必须严格定义"实际'相似度'"的含义,才能使任何答案成为可能。

这些措施中的每一个都很有用。如果您需要该范围内的内容,则可以将每个值缩放到 0.0 到 1.0 之间的值。但这并不一定使它们中的任何一个成为"百分比相似性",因为"百分比相似性"不是一个具有严格含义的概念。

相关内容

  • 没有找到相关文章

最新更新