Pandas-根据比较第[i]行和第[i+1]行的模糊结果,更改单列上的下一行



我在pandas中有下一个DataFrame(df(:(这只是一个例子,真正的df是2000多行和20多个名称(

ID 名称
1 Andrea Gonzlez
2 Andrea Glz
3 Andrea Glez
4 直线弧
5
6 线路

您可以执行以下操作:

1>从数据帧中查找唯一名称

2>查找名称的两个唯一组合。使用itertools。参见此处

---Name1-------|----Name2-------|
Andrea Gonzlez | Andrea Gonzlez |
Andrea Gonzlez | Lineth Arce    |
...
---------------|----------------|

3>查找两列的相似性

---Name1-------|----Name2-------|----similarity---|
Andrea Gonzlez | Andrea Gonzlez |    100          |
Andrea Gonzlez | Lineth Arce    |     20          |
...
---------------|----------------|-----------------|

4>选择相似度小于80%的行,并从中仅选择Name1

最新更新