如何将不平等的数据集与不明确的通用术语进行匹配



我有两组数据,列表A和列表B。

列表A被定义为主列表。这份名单上的所有东西都必须在最后一场比赛中考虑在内。假设它有500行数据,如DBA、地址、城市、国家等。列表B有6000行具有类似信息。

第一个问题是,列表B中可能有多个匹配项连接回列表A。它们都需要在最终的匹配输出中捕获,并包含DBA、地址、ID#等信息,因此可能格式化为行。

第二个问题是,两者可能没有一个明确的共同术语。地址可以用很多不同的方式拼写,而且通常是外语。与DBA、城市等相同。

第三个问题是,也不能保证列表B上的所有项目都匹配。

关于我该如何处理这件事的想法?我已经手动做了一段时间了。我将在列表A中获取DBA或地址的一部分,然后在列表B中按Ctrl+F。如果有多个匹配项,我将在清单A中添加一行,并将清单B中的所有匹配项放在那里。正如你所能想象的,这很痛苦,我希望有一种更有效的方法来做到这一点。提前感谢您的帮助!

第一步是为每个列表创建一个公共键。

您可以使用类似"查找"的公式来搜索地址的子字符串,并在此基础上创建指示符列。把几个指标放在一起,形成一个唯一的密钥,可能有人名或类似的东西。

一旦你在每个列表中都有一个唯一的键,你就可以使用excel vlookup功能来匹配列表。

最新更新