我正在寻找一个"好"/简单的指标来识别相似的地方/用户输入,以避免
重复。莱文斯坦距离适用于拼写错误,例如
面包店
贝克里
(莱文斯坦距离:2)
但是交换的单词"失败"
圣厄休拉学校
圣厄休拉学校
(莱文斯坦距离:17)
和补充
严肃的业务
严肃商业公司
我认为使用原始距离指标会很困难。您可能希望使用一些NLP方法(nltk)来执行ner(命名实体识别),然后使用该结果进行比较。