我已经尝试了大约3个小时,但我没有得到我想要的结果。
我有一个这样的数据集:
orderId name quantity order item
1 1 2 1
1 1 4 2
1 1 1 3
2 2 1 1
3 3 10 1
3 3 3 2
,我想删除多个出现的orderid,我有一个只有唯一id的输出数据框:
orderId userId order item
1 1 1
2 2 1
3 3 1
这样我就可以总结出用户下订单的频率。
你已经搜索了3个小时了:
df2.drop_duplicates(['orderId'])
orderId name quantity order item
0 1 1 2 1 NaN
3 2 2 1 1 NaN
4 3 3 10 1 NaN
您可以使用:
df = pd.DataFrame({'A':[1,1,1,2,2,2,3,3,3],'B':[2,2,2,3,3,3,4,4,4]})
A B
0 1 2
1 1 2
2 1 2
3 2 3
4 2 3
5 2 3
6 3 4
7 3 4
8 3 4
df.drop_duplicates((['A','B'])) # in your case its orderId
A B
0 1 2
3 2 3
6 3 4
在drop_duplicates()
方法中,您可以选择检查重复的列,它也接受有用的参数keep
,可以设置为first
或last
。