是否有 pandas 函数来对数据帧中一组前一行元素求和?



我正在尝试创建一个函数,该函数可以查看数据帧中的前几行,并根据要回顾的一组行数对它们求和。在这里我使用了 3,但理想情况下,我想放大它以回顾更多行。我的解决方案有效,但似乎效率不高。另一个标准是每次它命中一个新团队时,计数必须重新开始,因此每个新团队的第一行始终为 0,数据将按团队顺序排序,但如果已知解决方案的数据不在团队顺序中,这将令人难以置信。 熊猫中是否有可以帮助解决这个问题的功能?

到目前为止,我已经尝试了下面的代码并尝试在谷歌上搜索这个问题,我能找到的最接近的例子是:这里! 但这对索引进行了分组,我不确定当值每次击中新团队时必须不断重置时如何应用它,因为它不会区分每次有新团队。

np.random.seed(0)
data = {'team':['a','a','a','a','a','a','a','a','b','b',
'b','b','b','b','b','b','c','c','c','c','c','c','c','c'], 
'teamPoints': np.random.randint(0,4,24)}
df = pd.DataFrame.from_dict(data)
df.reset_index(inplace=True)

def find_sum_last_3(x):
if x == 0:
return 0
elif x == 1:
return df['teamPoints'][x-1]
elif x == 2:
return df['teamPoints'][x-1] + df['teamPoints'][x-2]

elif df['team'][x] != df['team'][x-1]:
return 0
elif df['team'][x] != df['team'][x-2]:
return df['teamPoints'][x-1]
elif df['team'][x] != df['team'][x-3]:
return df['teamPoints'][x-1] + df['teamPoints'][x-2]

else:
return df['teamPoints'][x-1] + df['teamPoints'][x-2] + 
df['teamPoints'][x-3]
df['team_form_3games'] = df['index'].apply(lambda x : find_sum_last_3(x))

该函数的第一部分解决了由于元素少于 3 个而无法实现 3 和的边缘情况

函数的第二部分解决了"团队"变化的问题。当团队发生变化时,总和需要重新开始,因此每个"团队"都被单独考虑

最后一部分只是查看数据帧的前 3 个元素并将它们相加。

此示例按预期工作,并给出一个具有预期输出的新列,如下所示:

0, 0, 3, 4, 4, 4, 6, 9, 0, 1, 4, 5, 6, 3, 5, 5, 0, 0, 0, 2, 3, 5, 6, 8

第一个元素是 0,因为它是边缘情况,第二个元素是 0,因为第一个元素的总和是 0。 第 3 个是 3,因为第 1 个和第 2 个元素的总和是 3。 第 4 个是第 1、2 个、第 3 个的总和。 第 5 个是第 2、3、4 个的总和。 第 6 个是第 3 个、第 4 个的总和,第五名

但是,当扩展到 10 时,它被证明效率非常低,这使得很难扩展到 10 或 15。它也很不优雅,需要为每个不同长度的总和编写一个新函数。

我想你正在寻找GroupBy.apply +rolling

r3=df.groupby('team')['teamPoints'].apply(lambda x: x.rolling(3).sum().shift())
r2=df.groupby('team')['teamPoints'].apply(lambda x: x.rolling(2).sum().shift())
r1=df.groupby('team')['teamPoints'].apply(lambda x: x.shift())
df['team_form_3games'] = r3.fillna(r2.fillna(r1).fillna(0))
print(df)

输出:

index team  teamPoints  team_form_3games
0       0    a           0               0.0
1       1    a           3               0.0
2       2    a           1               3.0
3       3    a           0               4.0
4       4    a           3               4.0
5       5    a           3               4.0
6       6    a           3               6.0
7       7    a           3               9.0
8       8    b           1               0.0
9       9    b           3               1.0
10     10    b           1               4.0
11     11    b           2               5.0
12     12    b           0               6.0
13     13    b           3               3.0
14     14    b           2               5.0
15     15    b           0               5.0
16     16    c           0               0.0
17     17    c           0               0.0
18     18    c           2               0.0
19     19    c           1               2.0
20     20    c           2               3.0
21     21    c           3               5.0
22     22    c           3               6.0
23     23    c           2               8.0

最新更新