如何将机器学习应用于模糊匹配

假设我有一个MDM系统(主数据管理)，其主要应用是检测和防止记录重复。

每次销售代表在系统中输入新客户时，我的 MDM 平台都会对现有记录执行检查，计算单词、短语或属性对之间的 Levenshtein 或 Jaccard 或 XYZ 距离，考虑权重和系数并输出相似性分数，等等。

典型的模糊匹配方案。

我想知道应用机器学习技术来优化匹配输出是否有意义，即以最大精度查找重复项。
以及它究竟在哪里最有意义。

优化属性的权重？
通过预测比赛结果来提高算法置信度？
了解匹配规则，否则我会配置到算法中？
别的？

关于这个话题也有很好的答案，但我不太明白这个家伙是否真的使用了 ML。

另外，我的理解是，加权模糊匹配已经是一个足够好的解决方案，甚至可能从财务角度来看，因为每当您部署这样的MDM系统时，您都必须进行一些分析和预处理，无论是手动编码匹配规则还是训练ML算法。

因此，我不确定ML的添加是否代表一个重要的价值主张。

任何想法都值得赞赏。

使用机器学习的主要优点是节省时间。

很有可能，如果有足够的时间，您可以手动调整权重并提出非常适合您的特定数据集的匹配规则。机器学习方法可能很难超越为特定数据集定制的手工系统。

但是，这可能需要几天时间才能手工制作一个好的匹配系统。如果您使用现有的 ML 进行匹配工具(如重复数据删除)，则可以在一小时内(包括设置时间)学习良好的权重和规则。

因此，如果您已经构建了一个在数据上表现良好的匹配系统，那么可能不值得研究 ML。但是，如果这是一个新的数据项目，那么几乎可以肯定

。

传统上，模糊记录匹配软件需要大量用户参与项目参数化和文书审查。用户要么需要提供各种输入参数和阈值，要么为机器学习提供匹配和非匹配的示例。在这两种情况下，大量的用户参与和专业知识是成功分析的先决条件。使用无监督机器学习的主要价值是让软件自动计算解决方案，而无需用户参与。至少有一个这样的模糊匹配软件利用机器学习，称为"ReMaDDer"： http://remaddersoft.wixsite.com/remadder

相关内容

最新更新

热门标签：