地点的最佳距离度量是什么



我正在寻找一个"好"/简单的指标来识别相似的地方/用户输入,以避免

重复。

莱文斯坦距离适用于拼写错误,例如

面包店

贝克里

(莱文斯坦距离:2)

但是交换的单词"失败"

圣厄休拉学校

圣厄休拉学校

(莱文斯坦距离:17)

和补充

严肃的业务

严肃商业公司

我认为使用原始距离指标会很困难。您可能希望使用一些NLP方法(nltk)来执行ner(命名实体识别),然后使用该结果进行比较。

相关内容

  • 没有找到相关文章

最新更新