使用单词嵌入来查找具有更大权重的某些单词的文档之间的相似性



使用Word嵌入,我正在计算两个段落之间的相似距离,其中两个段落间的距离是两个单词的向量之间的欧氏距离之和,每个段落1个。这个总和的值越多,2个文档的相似性就越低-

在计算这个相似距离时,我如何为某些单词分配偏好/权重。

这听起来像是你在做(很多?(单词到单词的距离的基础上即兴制作了自己的段落到段落的距离测量。

你是不是随机挑选每个单词的单词进行比较,并做了很多工作来找出整体差异?

一个简单的衡量标准是对一段话中的所有单词进行平均,以获得该段话的单个向量。你可以很容易地给每个单词分配一个权重,默认为1.0(用于正常平均值(,但对超重单词来说更大。

另一个基于单词向量的更复杂的比较是"单词移动器的距离"——它本质上认为每个单词都是一堆"意义",然后找到将一段(作为一袋单词(转换到另一段的最小成对"移动"。(它在Python-gensim和其他库中以wmdistance()的形式提供。(不过,它的计算成本要高得多,尤其是作为文本字数的函数。

最新更新