如何在熊猫中将字典中与数据帧中的特定单词相似度高于 .6 的单词

我有一个word2vec字典，其中包含与给定单词相似的单词列表。

例

model.most_similar("ltd")
[('limited', 0.7886955142021179),
 ('limi', 0.6512018442153931),
 ('limite', 0.6031635999679565),
 ('wilford', 0.5938706994056702),
 ('lt', 0.583463728427887),
 ('lighttech', 0.5828145146369934),
 ('rmc', 0.5821658372879028),
 ('tomoike', 0.5752800703048706),
 ('jd', 0.5751883387565613),
 ('nxp', 0.5725069046020508)]

我想创建包含根和similar_words的数据帧(相似度高于 .6(

目前我能够写出与根词相对应的所有相似单词

words = y
similar = [[item[0] for item in model.most_similar(word)[:6]] for word in words]
similarity_matrix = pd.DataFrame({'Root_Word': words, 'Similar_Words': similar})

电流输出

Root_Word    Similar_word
[st]         [st., sreet, rd;, yop, tseun, tsven] 
[limited]    [ltd, lt, wt, serial, (h.k., dk] 
[centre]     [cent, ct, cte, entre, ctr., ce]

预期输出只有相似度高于 .6 的相似词。

怎么能做到这一点

根据您当前的方法：

 similar = [[item[0] for item in model.most_similar(word) if item[1] > 0.6] for word in words]

相关内容

最新更新

热门标签：