文本数据的欧几里得与余弦



如果我使用 tf-idf 特征表示(或只是文档长度归一化),那么欧几里得距离和 (1 - 余弦相似性)基本相同吗?我读过的所有教科书和其他论坛,讨论都说余弦相似性更适合文本......

我写了一些基本代码来测试这一点,发现它们确实是可比的,不是完全相同的浮点值,但它看起来像一个缩放版本。下面给出了简单演示文本数据上这两种相似性的结果。文本 2 是大约 50 个单词的大行,其余是小的 10 个单词行。

余弦相似性:0.0, 0.2967, 0.203, 0.2058

欧氏距离:0.0, 0.285, 0.2407, 0.2421

注意:如果这个问题更适合交叉验证或数据科学,请告诉我。

如果你的数据被规范化为单位长度,那么很容易证明

Euclidean(A,B) = 2 - Cos(A,B)

如果 ||A||=||B||=1.它在一般情况下不成立,它取决于您执行规范化步骤的确切顺序。即,如果您首先将文档规范化为单位长度,然后执行 IDF 加权,那么它将不会成立......

不幸的是,人们使用各种变体,包括完全不同的 IDF 规范化版本。

最新更新