我正在试验漂亮的GenSim包,并下载了glove_42B_300D数据集。
我有点惊讶地看到
的结果model.most_similar('apple')
为
iphone
ipad
apples
blackberry
ipod
macbook
mac
android
google
microsoft
我的意思是,"苹果"这个水果怎么样?
就我的目的而言,我需要的是这个意思,而不是苹果公司。
你能想到什么解决办法吗?谢谢。
这很令人惊讶,但是您可以尝试一些除了glove_42B_300D
以外的词向量集。
也许是glove.6B
集——根据GloVe页面,它们似乎是从不同的数据中训练出来的?
或GoogleNews
向量,谷歌发布了早在2013年就与原始寡糖word2vec.c
代码。参见:https://code.google.com/archive/p/word2vec/
如果这些都失败了,你可以从训练文本中训练你自己的向量,更好地反映你想要表示的含义。