我正在尝试使用多列值清理加载的CSV文件,这样我就可以从中筛选出重复的记录,并希望将其删除,但我得到了与日期相关的错误:
我的样本数据是:
ACTIVITY_DATE | OWNER_ID | OWNER_NAME |
---|---|---|
2020年1月 | 23344 | 詹姆斯·尼尔森 |
2020年1月2日 | 333445 | 奈杰尔·托马斯 |
2020年1月1日 | 23344 | 詹姆斯·尼尔森 |
2020年1月2日 | 333445 | 奈杰尔·托马斯 |
在您的特定示例中,.drop_duplicates((应该很好吗?
In [71]: df
Out[71]:
ACTIVITY_DATE OWNNER_ID OWNER_NAME
0 1/1/2020 23344 JAMES NELSON
1 2/1/2020 33445 NIGEL THOMAS
2 1/1/2020 23344 JAMES NELSON
3 2/1/2020 33445 NIGEL THOMAS
In [72]: df.drop_duplicates()
Out[72]:
ACTIVITY_DATE OWNNER_ID OWNER_NAME
0 1/1/2020 23344 JAMES NELSON
1 2/1/2020 33445 NIGEL THOMAS
或者,如果您只想提供要比较的列的子集,您可以这样做:
In [77]: df.drop_duplicates(subset=['ACTIVITY_DATE','OWNNER_ID'])
Out[77]:
ACTIVITY_DATE OWNNER_ID OWNER_NAME
0 1/1/2020 23344 JAMES NELSON
1 2/1/2020 33445 NIGEL THOMAS