我在pandas中有下一个DataFrame(df(:(这只是一个例子,真正的df是2000多行和20多个名称(
ID | 名称 |
---|---|
1 | Andrea Gonzlez |
2 | Andrea Glz |
3 | Andrea Glez |
4 | 直线弧 |
5 | 行 |
6 | 线路 |
您可以执行以下操作:
1>从数据帧中查找唯一名称
2>查找名称的两个唯一组合。使用itertools
。参见此处
---Name1-------|----Name2-------|
Andrea Gonzlez | Andrea Gonzlez |
Andrea Gonzlez | Lineth Arce |
...
---------------|----------------|
3>查找两列的相似性
---Name1-------|----Name2-------|----similarity---|
Andrea Gonzlez | Andrea Gonzlez | 100 |
Andrea Gonzlez | Lineth Arce | 20 |
...
---------------|----------------|-----------------|
4>选择相似度小于80
%的行,并从中仅选择Name1