使用python进行重复数据消除



我正在尝试使用多列值清理加载的CSV文件,这样我就可以从中筛选出重复的记录,并希望将其删除,但我得到了与日期相关的错误:

我的样本数据是:

ACTIVITY_DATE OWNER_ID OWNER_NAME
2020年1月 23344 詹姆斯·尼尔森
2020年1月2日 333445 奈杰尔·托马斯
2020年1月1日 23344 詹姆斯·尼尔森
2020年1月2日 333445 奈杰尔·托马斯

在您的特定示例中,.drop_duplicates((应该很好吗?

In [71]: df
Out[71]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS
2      1/1/2020      23344  JAMES NELSON
3      2/1/2020      33445  NIGEL THOMAS
In [72]: df.drop_duplicates()
Out[72]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS

或者,如果您只想提供要比较的列的子集,您可以这样做:

In [77]: df.drop_duplicates(subset=['ACTIVITY_DATE','OWNNER_ID'])
Out[77]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS

相关内容

  • 没有找到相关文章