使用NLP或其他算法对两个字符串进行mach



我的项目目标是正确分配药物。为此,我有一份大目录可供使用。然而,这些药物的拼写并不完全相同。可能增加了额外的信息或缩短了处方的可能部分。我已经能够使用Levensthein距离(token_set_ratio)实现一个可能的算法。因为这个算法有时会有很长的附加信息分配错误的药物,我想问一下是否有更好的算法来比较字符串。例如,实现机器学习算法或自然语言处理技术是否有意义?这对我来说是一个相对较新的领域。如有任何意见或启发,我将不胜感激。

这听起来像一个经典的重复数据删除任务。例如,看看dedupe。该工具允许您注释训练示例并学习两个项目何时引用相同的内容。它可以只使用10个训练样本,并实现了主动学习方法。

最新更新