Gensim word2vec most_similar按 # 前缀过滤



我有一个在Twitter上训练的word2vec模型。我使用

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)  

我想使用类似于这个的函数:

word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])

显示最相似的单词,但我想将结果限制为以主题标签开头的单词。有人可以解释一下我如何做到这一点吗?

Gensim 索引器不支持在查询邻居时进行筛选。但是您可以自己进行过滤:

[item for item in word_vectors.most_similar(positive=['woman', 'king'], 
                                            negative=['man'], 
                                            topn=1000) 
      if item[0].startswith('#')]

最新更新