我训练了一个Word2Vec模型,我正在尝试以数学方式制定most_similar函数。 我想到了一个集合,其中包含n个最相似的单词,给定一个单词作为参考。
存在于某个地方一个好的定义?
您可以查看实现most_similar()
的源代码,该源代码适用于gensim
Python库的KeyedVectors
抽象(用于保存和执行对词向量集的常见操作(:
https://github.com/RaRe-Technologies/gensim/blob/fbc7d0952f1461fb5de3f6423318ae33d87524e3/gensim/models/keyedvectors.py#L491
粗略地说,它首先计算一个目标向量——通过组合调用者提供的任何positive
和negative
示例。在常见情况下,这可能只是一个("正"(词向量。
然后,它计算与其他向量的余弦相似性,并将这些相似性排序为最高,并返回前 N 个结果。