我正在尝试创建一个函数,该函数可以查看数据帧中的前几行,并根据要回顾的一组行数对它们求和。在这里我使用了 3,但理想情况下,我想放大它以回顾更多行。我的解决方案有效,但似乎效率不高。另一个标准是每次它命中一个新团队时,计数必须重新开始,因此每个新团队的第一行始终为 0,数据将按团队顺序排序,但如果已知解决方案的数据不在团队顺序中,这将令人难以置信。 熊猫中是否有可以帮助解决这个问题的功能?
到目前为止,我已经尝试了下面的代码并尝试在谷歌上搜索这个问题,我能找到的最接近的例子是:这里! 但这对索引进行了分组,我不确定当值每次击中新团队时必须不断重置时如何应用它,因为它不会区分每次有新团队。
np.random.seed(0)
data = {'team':['a','a','a','a','a','a','a','a','b','b',
'b','b','b','b','b','b','c','c','c','c','c','c','c','c'],
'teamPoints': np.random.randint(0,4,24)}
df = pd.DataFrame.from_dict(data)
df.reset_index(inplace=True)
def find_sum_last_3(x):
if x == 0:
return 0
elif x == 1:
return df['teamPoints'][x-1]
elif x == 2:
return df['teamPoints'][x-1] + df['teamPoints'][x-2]
elif df['team'][x] != df['team'][x-1]:
return 0
elif df['team'][x] != df['team'][x-2]:
return df['teamPoints'][x-1]
elif df['team'][x] != df['team'][x-3]:
return df['teamPoints'][x-1] + df['teamPoints'][x-2]
else:
return df['teamPoints'][x-1] + df['teamPoints'][x-2] +
df['teamPoints'][x-3]
df['team_form_3games'] = df['index'].apply(lambda x : find_sum_last_3(x))
该函数的第一部分解决了由于元素少于 3 个而无法实现 3 和的边缘情况
函数的第二部分解决了"团队"变化的问题。当团队发生变化时,总和需要重新开始,因此每个"团队"都被单独考虑
最后一部分只是查看数据帧的前 3 个元素并将它们相加。
此示例按预期工作,并给出一个具有预期输出的新列,如下所示:
0, 0, 3, 4, 4, 4, 6, 9, 0, 1, 4, 5, 6, 3, 5, 5, 0, 0, 0, 2, 3, 5, 6, 8
第一个元素是 0,因为它是边缘情况,第二个元素是 0,因为第一个元素的总和是 0。 第 3 个是 3,因为第 1 个和第 2 个元素的总和是 3。 第 4 个是第 1、2 个、第 3 个的总和。 第 5 个是第 2、3、4 个的总和。 第 6 个是第 3 个、第 4 个的总和,第五名
但是,当扩展到 10 时,它被证明效率非常低,这使得很难扩展到 10 或 15。它也很不优雅,需要为每个不同长度的总和编写一个新函数。
我想你正在寻找GroupBy.apply +rolling
:
r3=df.groupby('team')['teamPoints'].apply(lambda x: x.rolling(3).sum().shift())
r2=df.groupby('team')['teamPoints'].apply(lambda x: x.rolling(2).sum().shift())
r1=df.groupby('team')['teamPoints'].apply(lambda x: x.shift())
df['team_form_3games'] = r3.fillna(r2.fillna(r1).fillna(0))
print(df)
输出:
index team teamPoints team_form_3games
0 0 a 0 0.0
1 1 a 3 0.0
2 2 a 1 3.0
3 3 a 0 4.0
4 4 a 3 4.0
5 5 a 3 4.0
6 6 a 3 6.0
7 7 a 3 9.0
8 8 b 1 0.0
9 9 b 3 1.0
10 10 b 1 4.0
11 11 b 2 5.0
12 12 b 0 6.0
13 13 b 3 3.0
14 14 b 2 5.0
15 15 b 0 5.0
16 16 c 0 0.0
17 17 c 0 0.0
18 18 c 2 0.0
19 19 c 1 2.0
20 20 c 2 3.0
21 21 c 3 5.0
22 22 c 3 6.0
23 23 c 2 8.0