我是熊猫初学者,我正在使用来自https://www.kaggle.com/jordangoblet/atp-tour-20002016所以数据样本会像这个
ATP Location Tournament Date Series Court Surface Round Best_of Winner Loser
1 Adelaide AO 3/01/2000 International Outdoor Hard 1st 3 Dosedel S. Ljubicic I.
1 Adelaide AO 3/01/2000 International Outdoor Hard 1st 3 Enqvist T. Clement A
屏幕截图我正在尝试生成以下功能:
到目前为止他们打了多少场比赛
到目前为止,每个球员赢了多少场比赛
etc
我尝试了基本的分组和重新采样,但无法达到所需的解决方案
尝试根据事件的日期变量对数据帧进行切片。然后可以在辅助列上使用groupby
函数。获取辅助列:
df['aux'] = df.apply(lambda x: '_'.join(sorted([x['Winner'], x['Loser']])), axis = 1)
分组后,您可以使用组来计算它们的任何类型的统计信息(就像您提到的那些(。
如果您想获得整个历史的累积统计信息,您可以在组上使用cumsum
和类似的函数(如果您确保数据是根据事件时间戳排序的(。
如果还有什么不清楚的地方或者你被卡住了,请告诉我。