GenSim : 我能找到更"traditional"的模型吗?



我正在试验漂亮的GenSim包,并下载了glove_42B_300D数据集。

我有点惊讶地看到

的结果
model.most_similar('apple')

iphone
ipad
apples
blackberry
ipod
macbook
mac
android
google
microsoft

我的意思是,"苹果"这个水果怎么样?

就我的目的而言,我需要的是这个意思,而不是苹果公司。

你能想到什么解决办法吗?谢谢。

这很令人惊讶,但是您可以尝试一些除了glove_42B_300D以外的词向量集。

也许是glove.6B集——根据GloVe页面,它们似乎是从不同的数据中训练出来的?

GoogleNews向量,谷歌发布了早在2013年就与原始寡糖word2vec.c代码。参见:https://code.google.com/archive/p/word2vec/

如果这些都失败了,你可以从训练文本中训练你自己的向量,更好地反映你想要表示的含义。