小贝子编程

给定2个多变量数据集，识别代表相同实体的记录，这些记录略有不同

本文关键字：记录实体变量 2个数据集识别给定 machine-learning duplicates fuzzy-comparison
更新时间 : 2023-08-25
英文 : Given 2 multivariate datasets, identify records representing the same entity, which differ slightly

让我们以两个数据源为例，数据大小分别为"m"one_answers"n"。两个数据集都是SQL表，具有相同的模式，但数据不同。我们的目标是"标记"足够相似的模糊匹配(数据集之间的)，以考虑"相同的"。

CREATE TABLE player(
    id Integer,
    fname VARCHAR(64),
    lname VARCHAR(64),
    birth_dt datetime,
    weight Integer
)

虽然大多数总组合(m*n)将不匹配，但我们希望标记"类似"匹配，如以下所示:

{"fname": "John", "lname": "Smith", "birth_dt": "6/6/91", "weight": 220}
{"fname": "Jack", "lname": "Smith", "birth_dt": "6/6/91", "weight": 210}

是否有任何工具(开源或非开源)可以很好地识别和标记这些"匹配"?

这是一个"记录链接"的问题，这个关键字可以帮助你找到关于这个问题的大量文献。

开源的python库dedupe提供了一个全面的方法。

相关内容