小贝子编程

Gensim word2vec most_similar按 # 前缀过滤

本文关键字：前缀过滤 similar word2vec most Gensim python machine-learning nlp word2vec gensim
更新时间 : 2023-09-10
英文 : Gensim word2vec most_similar filtering by # prefix

我有一个在Twitter上训练的word2vec模型。我使用

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)

我想使用类似于这个的函数：

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

以

显示最相似的单词，但我想将结果限制为以主题标签开头的单词。有人可以解释一下我如何做到这一点吗？

Gensim 索引器不支持在查询邻居时进行筛选。但是您可以自己进行过滤：

[item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                            negative=['man'], 
                                            topn=1000) 
      if item[0].startswith('#')]

Gensim word2vec most_similar按 # 前缀过滤

相关内容

最新更新

热门标签：