数据时间 第一天熊猫的行动



大家好吗? 好吧,今天我带着一个非常复杂的问题来哈哈。 我的想法是跟随客户。在我的数据帧中,我有一列包含数据时间,另一列包含人员代码(例如:0aie23(,在下一列中是此人所做的操作。 我的想法是每个人的"只行动的第一天"。并在此基础上计算人们在网络上所做的共同运动。

让我们看看我的例子:

在此处输入图像描述

如图所示,用户 000a54b2 在不同的日子执行操作。我只想保留第一天(第 9 天(的操作,数据帧继续,并且有用户执行操作超过一天,我只想保留第一天。

我还想知道我该如何跟踪...例。。最高比例的用户执行以下操作"广告系列点击",然后"访问网站",然后"查看产品",然后"结帐"。或者,也许第一天的大部分操作只执行"查看产品"然后"结帐"。谢谢

阅读我的评论后,您可以使用以下内容:

df =df[df[dla]=='9']

这是一些熊猫查询,为您提供了 dla 等于 9 的数据帧的子集。

这里有一种方法可以做到这一点:

##Finding the earliest day (from `dia` column) of activity for each user
earliest_day = df.groupby('person')['dia'].min().reset_index()
## Obtaining the user and event information for all "earliest day" events
df1 = df.merge(earliest_day, left_on = ['person', 'dia'], right_on = ['person', 'dia'], 
how = 'inner')[['person', 'event']]
## Counting the number of times each activity (event) occurred on a the first day of user experience.
df1['event'].value_counts()

最新更新