在过去的一周里，我一直在努力使用apply在整个pandas数据帧上使用函数，包括滚动窗口、分组，尤其是多输入列和多列输出。我在SO上发现了大量关于这个话题的问题；过时的答案。所以我开始为x输入的每一个可能的组合创建一个笔记本；输出，滚动，滚动&groupby组合，我也关注性能。由于我不是唯一一个在这些问题上挣扎的人，我想我会在这里提供我的解决方案，并提供一些可行的例子，希望它能帮助任何现有/未来的熊猫用户。

重要注意事项

apply&Panda中的滚动具有非常强的输出要求。您必须返回一个值。不能返回pd.Series，不能返回列表，不能返回数组，不能秘密返回数组中的数组，只能返回一个值，例如一个整数。当试图返回多列的多个输出时，这一要求使得很难获得有效的解决方案。我不明白为什么它有这样的要求‘应用&rolling，因为没有rolling，apply就没有这个要求。一定是由于熊猫内部的一些功能
"apply&滚动与多个输入列组合根本不起作用！想象一个有2列6行的数据帧，并且您想要应用一个滚动窗口为2的自定义函数。您的函数应该得到一个输入数组，其中包含2x2个值——2行中每列2个值。但熊猫似乎无法同时处理滚动和多个输入列。我试图使用轴参数使其工作，但：
- Axis=0，将按列调用函数。在上面描述的数据帧中，它将调用您的函数10次(而不是12次，因为rolling=2)，并且由于它是每列的，所以它只提供该列的2个滚动值
- Axis=1，将每行调用您的函数。这可能是您想要的，但panda不会提供2x2输入。它实际上完全忽略了滚动，只提供了一行2列的值
当对多个输入列使用"apply"时，可以提供一个名为raw(boolean)的参数。默认情况下为False，这意味着输入将是pd.Series，因此在值旁边包含索引。如果不需要索引，可以将raw设置为True以获得Numpy数组，这样通常可以获得更好的性能
当组合"rolling&groupby’，它返回一个多索引序列，该序列不能很容易地用作新列的输入。最简单的解决方案是附加一个reset_index(drop=True)作为答案&此处注释(Python-GroupBy对象的滚动函数)
你可能会问我，你什么时候想使用具有多个输出的滚动、逐组自定义函数！？答：我最近不得不在数据集中(groupby)的不同批次的500万条记录(速度/性能很重要)的数据集上进行滑动窗口(滚动)的傅立叶变换。我需要节省电力和；不同列中傅立叶变换的相位(多个输出)。大多数人可能只需要下面的一些基本示例，但我相信，尤其是在机器学习/数据科学领域，更复杂的示例可能会很有用
请告诉我您是否有更好、更清晰或更快的方法来执行以下任何解决方案。我会更新我的答案，我们都可以受益

代码示例

让我们首先创建一个数据帧，它将在下面的所有示例中使用，包括groupby示例的group列。对于滚动窗口和多个输入/输出列，我在下面的所有代码示例中只使用了2，但显然这可以是任何大于1的数字。

df = pd.DataFrame(np.random.randint(0,5,size=(6, 2)), columns=list('ab'))
df['group'] = [0, 0, 0, 1, 1, 1]
df = df[['group', 'a', 'b']]

它看起来是这样的：

group   a   b
0   0   2   2
1   0   4   1
2   0   0   4
3   1   0   2
4   1   3   2
5   1   3   0

输入1列，输出1列

基本

def func_i1_o1(x):    
return x+1
df['c'] = df['b'].apply(func_i1_o1)

滚动

def func_i1_o1_rolling(x):
return (x[0] + x[1])
df['d'] = df['c'].rolling(2).apply(func_i1_o1_rolling, raw=True)

罗林&分组

将reset_index解决方案(请参阅上面的注释)添加到滚动函数中。

df['e'] = df.groupby('group')['c'].rolling(2).apply(func_i1_o1_rolling, raw=True).reset_index(drop=True)

输入2列，输出1列

基本

def func_i2_o1(x):
return np.sum(x)
df['f'] = df[['b', 'c']].apply(func_i2_o1, axis=1, raw=True)

滚动

正如上面注释中的第2点所解释的，对于2个输入，没有"正常"的解决方案。下面的解决方法使用"raw=False"来确保输入是pd.Series，这意味着我们还可以获得值旁边的索引。这使我们能够在要使用的正确索引处从其他列获取值。

def func_i2_o1_rolling(x):
values_b = x
values_c = df.loc[x.index, 'c'].to_numpy()
return np.sum(values_b) + np.sum(values_c)
df['g'] = df['b'].rolling(2).apply(func_i2_o1_rolling, raw=False)

滚动&分组

将reset_index解决方案(请参阅上面的注释)添加到滚动函数中。

df['h'] = df.groupby('group')['b'].rolling(2).apply(func_i2_o1_rolling, raw=False).reset_index(drop=True)

输入1列，输出2列

基本

您可以通过返回pd使用"正常"解决方案。系列：

def func_i1_o2(x):
return pd.Series((x+1, x+2))
df[['i', 'j']] = df['b'].apply(func_i1_o2)

或者，您可以使用zip/tuple组合，这大约快8倍！

def func_i1_o2_fast(x):
return x+1, x+2
df['k'], df['l'] = zip(*df['b'].apply(func_i1_o2_fast))

滚动

正如上面注释中的第1点所解释的，如果在使用rolling&组合应用。我找到了两个可行的解决方案。

def func_i1_o2_rolling_solution1(x):
output_1 = np.max(x)
output_2 = np.min(x)
# Last index is where to place the final values: x.index[-1]
df.at[x.index[-1], ['m', 'n']] = output_1, output_2
return 0
df['m'], df['n'] = (np.nan, np.nan)
df['b'].rolling(2).apply(func_i1_o2_rolling_solution1, raw=False)

优点：一切都在一个功能内完成
缺点：您必须首先创建列，因为它不使用原始输入，所以速度较慢。

rolling_w = 2
nan_prefix = (rolling_w - 1) * [np.nan]
output_list_1 = nan_prefix.copy()
output_list_2 = nan_prefix.copy()
def func_i1_o2_rolling_solution2(x):
output_list_1.append(np.max(x))
output_list_2.append(np.min(x))
return 0
df['b'].rolling(rolling_w).apply(func_i1_o2_rolling_solution2, raw=True)
df['o'] = output_list_1
df['p'] = output_list_2

优点：它使用原始输入，使其速度大约是原来的两倍。由于它不使用索引来设置输出值，所以代码看起来更清晰(至少对我来说)
缺点：您必须自己创建nan前缀，这需要更多的代码行。

滚动&分组

通常，我会使用上面更快的第二个解决方案。然而，由于我们正在组合组并滚动，这意味着您必须在数据集中间的正确索引处手动设置NaN的/零(取决于组的数量)。在我看来，当组合滚动、分组和多个输出列时，第一个解决方案更容易，并自动解决了自动NaN/分组。最后，我再次使用reset_index解决方案。

def func_i1_o2_rolling_groupby(x):
output_1 = np.max(x)
output_2 = np.min(x)
# Last index is where to place the final values: x.index[-1]
df.at[x.index[-1], ['q', 'r']] = output_1, output_2
return 0
df['q'], df['r'] = (np.nan, np.nan)
df.groupby('group')['b'].rolling(2).apply(func_i1_o2_rolling_groupby, raw=False).reset_index(drop=True)

输入2列，输出2列

基本

我建议使用与i1_o2相同的"快速"方式，唯一的区别是您可以使用2个输入值。

def func_i2_o2(x):
return np.mean(x), np.median(x)
df['s'], df['t'] = zip(*df[['b', 'c']].apply(func_i2_o2, axis=1))

滚动

由于我使用了一种变通方法来应用具有多个输入的滚动，并且我使用了另一种变通办法来应用具有多输出，因此您可以猜测我需要将它们组合在一起
1.使用索引从其他列获取值(请参见func_i2_o1_rolling)
2。在正确的索引上设置最终的多个输出(请参见func_i1_o2_rolling_solution1)

def func_i2_o2_rolling(x):
values_b = x.to_numpy()
values_c = df.loc[x.index, 'c'].to_numpy()
output_1 = np.min([np.sum(values_b), np.sum(values_c)])
output_2 = np.max([np.sum(values_b), np.sum(values_c)])    
# Last index is where to place the final values: x.index[-1]
df.at[x.index[-1], ['u', 'v']] = output_1, output_2
return 0
df['u'], df['v'] = (np.nan, np.nan)
df['b'].rolling(2).apply(func_i2_o2_rolling, raw=False)

滚动&分组

将reset_index解决方案(请参阅上面的注释)添加到滚动函数中。

def func_i2_o2_rolling_groupby(x):
values_b = x.to_numpy()
values_c = df.loc[x.index, 'c'].to_numpy()
output_1 = np.min([np.sum(values_b), np.sum(values_c)])
output_2 = np.max([np.sum(values_b), np.sum(values_c)])    
# Last index is where to place the final values: x.index[-1]
df.at[x.index[-1], ['w', 'x']] = output_1, output_2
return 0
df['w'], df['x'] = (np.nan, np.nan)
df.groupby('group')['b'].rolling(2).apply(func_i2_o2_rolling_groupby, raw=False).reset_index(drop=True)

熊猫应用，滚动，分组与多个输入和多个输出列

重要注意事项

代码示例

输入1列，输出1列

输入2列，输出1列

输入1列，输出2列

输入2列，输出2列

相关内容

最新更新

热门标签：