小贝子编程

Pandas-根据比较第[i]行和第[i+1]行的模糊结果，更改单列上的下一行

本文关键字：单列一行 i+1 结果模糊 Pandas- 比较 python pandas fuzzywuzzy
更新时间 : 2023-09-21
英文 : Pandas - change next row on single column based on the fuzzy wuzzy result of comparing row[i] with row[i+1]

我在pandas中有下一个DataFrame(df(：(这只是一个例子，真正的df是2000多行和20多个名称(

ID	名称
1	Andrea Gonzlez
2	Andrea Glz
3	Andrea Glez
4	直线弧
5	行
6	线路

您可以执行以下操作：

1>从数据帧中查找唯一名称

2>查找名称的两个唯一组合。使用itertools。参见此处

---Name1-------|----Name2-------|
Andrea Gonzlez | Andrea Gonzlez |
Andrea Gonzlez | Lineth Arce    |
...
---------------|----------------|

3>查找两列的相似性

---Name1-------|----Name2-------|----similarity---|
Andrea Gonzlez | Andrea Gonzlez |    100          |
Andrea Gonzlez | Lineth Arce    |     20          |
...
---------------|----------------|-----------------|

4>选择相似度小于80%的行，并从中仅选择Name1

Pandas-根据比较第[i]行和第[i+1]行的模糊结果，更改单列上的下一行

相关内容

最新更新

热门标签：