我想从语料库中提取类似的单词。相似性是基于字符串的。即,当两个单词的字符串高度相似时,两个单词被提取为相似单词。例如,如果语料库包含:Aras,bahro,arasis,adkpo,bah,Aras-sd,kio。
类似的词:
1-aras,arasis,aras-sd
2-泰铢,泰铢
如何解决这个问题?谢谢
Levenstein距离是衡量两个单词序列之间差异的指标,也许你可以取一个单词序列并计算距离,以确定它们是否相似。