熊猫快速模糊匹配



我有两个数据帧,格式如下:

d = {'id2': ['1', '2'], 'name': ['paris city', 'london town']}
df1 = pd.DataFrame(data=d)

print(df1)
id2   name 
0     1  paris city              
1     1  london town   

d = {'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']}
df2 = pd.DataFrame(data=d)

print(df2)
id2   name 
0     3  parid cit              
1     4  londoon town     

我希望做一个基于名称列的模糊字符串合并。最终结果如下:

id2  id2    name_x          name_y      match_level
0     3    1   parid cit       paris city         0.91
1     4    2   londoon town    london town        0.93

我尝试使用模糊wuzzy库,但是因为我合并的两个表都有100k+行

我也看到了一些"快速"的实现,比如快速模糊或其他使用tfidf或k近邻的实现:然而,所有的代码示例都展示了如何在列表中查找单个字符串的匹配,我还没有找到任何其他库/实现在两个数据帧之间进行模糊合并。

什么是一种快速有效的模糊合并熊猫数据框架的方法?

import fuzzymatcher
import pandas as pd
df_left =  pd.DataFrame({'id2': ['1', '2'], 'name': ['paris city', 'london town']})
df_right =  pd.DataFrame({'id2': ['3', '4'], 'name': ['parid cit', 'londoon town']})
fuzzymatcher.fuzzy_left_join(df_left, df_right, left_on = "name", right_on = "name")

这是地址:https://github.com/RobinL/fuzzymatcher

最新更新