我有一个在Twitter上训练的word2vec模型。我使用
from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('./twitter.txt', binary=False)
我想使用类似于这个的函数:
word_vectors.most_similar(positive=['woman', 'king'], negative=['man'])
以显示最相似的单词,但我想将结果限制为以主题标签开头的单词。有人可以解释一下我如何做到这一点吗?
Gensim 索引器不支持在查询邻居时进行筛选。但是您可以自己进行过滤:
[item for item in word_vectors.most_similar(positive=['woman', 'king'],
negative=['man'],
topn=1000)
if item[0].startswith('#')]