从语料库中提取相似的单词



我想从语料库中提取类似的单词。相似性是基于字符串的。即,当两个单词的字符串高度相似时,两个单词被提取为相似单词。例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,Aras-sd,kio。

类似的词:

1-aras,arasis,aras-sd

2-泰铢,泰铢

如何解决这个问题?谢谢

Levenstein距离是衡量两个单词序列之间差异的指标,也许你可以取一个单词序列并计算距离,以确定它们是否相似。

相关内容

  • 没有找到相关文章

最新更新