使用python进行重复数据消除

我正在尝试使用多列值清理加载的CSV文件，这样我就可以从中筛选出重复的记录，并希望将其删除，但我得到了与日期相关的错误：

我的样本数据是：

ACTIVITY_DATE	OWNER_ID	OWNER_NAME
2020年1月	23344	詹姆斯·尼尔森
2020年1月2日	333445	奈杰尔·托马斯
2020年1月1日	23344	詹姆斯·尼尔森
2020年1月2日	333445	奈杰尔·托马斯

在您的特定示例中，.drop_duplicates((应该很好吗？

In [71]: df
Out[71]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS
2      1/1/2020      23344  JAMES NELSON
3      2/1/2020      33445  NIGEL THOMAS
In [72]: df.drop_duplicates()
Out[72]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS

或者，如果您只想提供要比较的列的子集，您可以这样做：

In [77]: df.drop_duplicates(subset=['ACTIVITY_DATE','OWNNER_ID'])
Out[77]:
ACTIVITY_DATE  OWNNER_ID    OWNER_NAME
0      1/1/2020      23344  JAMES NELSON
1      2/1/2020      33445  NIGEL THOMAS

相关内容

最新更新

热门标签：