我需要调整长度,同时比较各对文档的余弦相似性



假设我有两个文档A和B,并且每个文档都有两个版本1和2。我计算了(A1,A2(和(B1,B2(的余弦相似性。令SA =余弦(A1,A2(和SB =余弦(B1,B2(。

如果sa<SB,我可以说文件比文档B的更改或更新更大或更新吗?

一篇论文指出:"两个文档中包含一个单词越长的文档越长,导致文档会有所不同的可能性较低(有关分析证明,请参见附录B(。"该纸可以在这里找到。

这是真的吗?由于词汇量的大小有限,因此这种说法对于Jaccard的相似性可能是正确的。但是,余弦相似性是一个角度,并且直观地,文档的长度无关紧要。如果这是真的,那么调整相似性得分的最佳方法是长度的最佳方法,以便我可以在不同的文档对之间进行比较。谢谢你!

我根据22861对运行一些统计数据。实际上,DOC的长度和相似性高度正相关。平均值:

WC2          4829.637374
WCl          4389.449193
WCA          4609.543283
Cosine         0.750225
CosineR        0.786806
Jaccard        0.606962
JaccardR       0.653031

其中:

wc2是版本2的干净词计数,不包括止损,数字和标点符号。WCA是平均值(WC1和WC2(。余弦是基于干净的单词的干净余弦相似性。
COSINER是基于所有令牌的余弦相似性(包括停止词,数字和标点(。

这是皮尔森相关矩阵:

                WC2       WCl       WCA    Cosine   CosineR   Jaccard  JaccardR
WC2       1.000000  0.886743  0.972220  0.121300  0.122131  0.107936  0.123040
WCl       0.886743  1.000000  0.970310  0.238503  0.257914  0.220078  0.254090
WCA       0.972220  0.970310  1.000000  0.184233  0.194497  0.167911  0.193036
Cosine    0.121300  0.238503  0.184233  1.000000  0.978050  0.982066  0.971082
CosineR   0.122131  0.257914  0.194497  0.978050  1.000000  0.948325  0.981853
Jaccard   0.107936  0.220078  0.167911  0.982066  0.948325  1.000000  0.975908
JaccardR  0.123040  0.254090  0.193036  0.971082  0.981853  0.975908  1.000000

正如您所说,文档的长度并未反映在余弦相似性中。您可以将余弦相似性乘以文档长度差的绝对值(||A1|-|A2||*Sa||B1|-|B2||*Sb(。

最新更新