小贝子编程

地点的最佳距离度量是什么

我正在寻找一个"好"/简单的指标来识别相似的地方/用户输入，以避免

重复。

莱文斯坦距离适用于拼写错误，例如

面包店
贝克里

（莱文斯坦距离：2）

但是交换的单词"失败"

圣厄休拉学校
圣厄休拉学校

（莱文斯坦距离：17）

和补充

严肃的业务
严肃商业公司

我认为使用原始距离指标会很困难。您可能希望使用一些NLP方法（nltk）来执行ner（命名实体识别），然后使用该结果进行比较。

最新更新