使用fuzzyWuzzy在Name值上有效地连接两个pandas数据框



我有两个名称值不匹配的数据帧。约翰·约翰逊->小约翰·约翰逊,我需要把这些名字匹配到一定的阈值。我正在使用fuzzy-wuzzy,但我找不到有效的方法。我已经尝试遍历两个数据帧,像这样

for index, _ in df.iterrows():
for index_two, _ in df2.iterrows():
if fuzzy.ratio(df.at[index, 'Name'], df2.at[index_two, 'Name']) > 85:
df.at[index, 'value I want to add to first df'] = df2.at[index_two, 'value']

我试过这个例子,是否有可能做模糊匹配合并与蟒蛇熊猫?

我试过这个例子https://www.py4u.net/discuss/162793

这三种方法都极其缓慢和低效。我哪里做错了?

最好使用专用库,请查看以下示例:https://recordlinkage.readthedocs.io/en/latest/notebooks/link_two_dataframes.html

最新更新