熊猫时间序列统计一个事件直到特定日期



我是熊猫初学者,我正在使用来自https://www.kaggle.com/jordangoblet/atp-tour-20002016所以数据样本会像这个

ATP Location    Tournament  Date        Series          Court   Surface  Round  Best_of    Winner       Loser
1    Adelaide    AO         3/01/2000 International    Outdoor   Hard    1st    3          Dosedel S.   Ljubicic I.
1    Adelaide    AO         3/01/2000 International    Outdoor   Hard    1st    3          Enqvist T.   Clement A

屏幕截图我正在尝试生成以下功能:

  • 到目前为止他们打了多少场比赛

  • 到目前为止,每个球员赢了多少场比赛

  • etc

    我尝试了基本的分组和重新采样,但无法达到所需的解决方案

尝试根据事件的日期变量对数据帧进行切片。然后可以在辅助列上使用groupby函数。获取辅助列:

df['aux'] = df.apply(lambda x: '_'.join(sorted([x['Winner'], x['Loser']])), axis = 1)

分组后,您可以使用组来计算它们的任何类型的统计信息(就像您提到的那些(。

如果您想获得整个历史的累积统计信息,您可以在组上使用cumsum和类似的函数(如果您确保数据是根据事件时间戳排序的(。

如果还有什么不清楚的地方或者你被卡住了,请告诉我。

最新更新