我正在尝试计算两个Bi-gram之间的语义相似性,我需要使用FastText的预训练的单词向量来完成此任务。
for ex:
b-grams是两个元素的python列表: [his, name]
和[I, am]
它们是两个元组,我需要通过任何必要的方式来计算这两个元组之间的相似性。
我希望有一个分数可以给我一个很好的相似性近似。对于ex-如果有方法可以告诉我[His, name]
比[I, am]
更相似于[An, apple]
。
现在,我只利用余弦相似性,确实包括任何语义相似性。
余弦相似性,如果您首先平均两个单词向量,则可能是有用的。因此,您想以"他的"one_answers"名称"的形式将矢量带入一个向量。然后将矢量换成" I"one_answers" AM",然后将其平均为一个向量。最后,计算两个结果向量的余弦相似性,并且应该给您一个粗糙的语义相似性。