Word2Vec 词向量最相似

我训练了一个Word2Vec模型，我正在尝试以数学方式制定most_similar函数。我想到了一个集合，其中包含n个最相似的单词，给定一个单词作为参考。

存在于某个地方一个好的定义？

您可以查看实现most_similar()的源代码，该源代码适用于gensimPython库的KeyedVectors抽象(用于保存和执行对词向量集的常见操作(：

https://github.com/RaRe-Technologies/gensim/blob/fbc7d0952f1461fb5de3f6423318ae33d87524e3/gensim/models/keyedvectors.py#L491

粗略地说，它首先计算一个目标向量——通过组合调用者提供的任何positive和negative示例。在常见情况下，这可能只是一个("正"(词向量。

然后，它计算与其他向量的余弦相似性，并将这些相似性排序为最高，并返回前 N 个结果。

相关内容