如何在一个DataFrame中删除多个事件id ?



我已经尝试了大约3个小时,但我没有得到我想要的结果。

我有一个这样的数据集:

orderId name   quantity  order item
1      1       2          1
1      1       4          2
1      1       1          3
2      2       1          1
3      3       10         1
3      3       3          2

,我想删除多个出现的orderid,我有一个只有唯一id的输出数据框:

orderId userId order item
1    1         1
2    2         1
3    3         1

这样我就可以总结出用户下订单的频率。

你已经搜索了3个小时了:

df2.drop_duplicates(['orderId'])
orderId  name  quantity  order  item
0        1     1         2      1   NaN
3        2     2         1      1   NaN
4        3     3        10      1   NaN

您可以使用:

df = pd.DataFrame({'A':[1,1,1,2,2,2,3,3,3],'B':[2,2,2,3,3,3,4,4,4]})
A   B
0   1   2
1   1   2
2   1   2
3   2   3
4   2   3
5   2   3
6   3   4
7   3   4
8   3   4
df.drop_duplicates((['A','B'])) # in your case its orderId
A   B
0   1   2
3   2   3
6   3   4

drop_duplicates()方法中,您可以选择检查重复的列,它也接受有用的参数keep,可以设置为firstlast

最新更新