Word2Vec 词向量最相似



我训练了一个Word2Vec模型,我正在尝试以数学方式制定most_similar函数。 我想到了一个集合,其中包含n个最相似的单词,给定一个单词作为参考。

存在于某个地方一个好的定义?

您可以查看实现most_similar()的源代码,该源代码适用于gensimPython库的KeyedVectors抽象(用于保存和执行对词向量集的常见操作(:

https://github.com/RaRe-Technologies/gensim/blob/fbc7d0952f1461fb5de3f6423318ae33d87524e3/gensim/models/keyedvectors.py#L491

粗略地说,它首先计算一个目标向量——通过组合调用者提供的任何positivenegative示例。在常见情况下,这可能只是一个("正"(词向量。

然后,它计算与其他向量的余弦相似性,并将这些相似性排序为最高,并返回前 N 个结果。

最新更新