小贝子编程

使用NLP或其他算法对两个字符串进行mach

本文关键字：两个字符串 mach NLP 其他算法使用 machine-learning nlp
更新时间 : 2023-09-22
英文 : Using NLP or other algorithms to mach two strings

我的项目目标是正确分配药物。为此，我有一份大目录可供使用。然而，这些药物的拼写并不完全相同。可能增加了额外的信息或缩短了处方的可能部分。我已经能够使用Levensthein距离(token_set_ratio)实现一个可能的算法。因为这个算法有时会有很长的附加信息分配错误的药物，我想问一下是否有更好的算法来比较字符串。例如，实现机器学习算法或自然语言处理技术是否有意义?这对我来说是一个相对较新的领域。如有任何意见或启发，我将不胜感激。

这听起来像一个经典的重复数据删除任务。例如，看看dedupe。该工具允许您注释训练示例并学习两个项目何时引用相同的内容。它可以只使用10个训练样本，并实现了主动学习方法。

使用NLP或其他算法对两个字符串进行mach

相关内容

最新更新

热门标签：