具有基于索引的限制的正向填充列

我想转发填充一列，我想指定一个限制，但我希望限制基于索引---而不是像限制允许的那样简单的行数。

例如，假设我有由以下人员给出的数据帧：

df = pd.DataFrame({
'data': [0.0, 1.0, np.nan, 3.0, np.nan, 5.0, np.nan, np.nan, np.nan, np.nan],
'group': [0, 0, 0, 1, 1, 0, 0, 0, 1, 1]
})

看起来像

In [27]: df
Out[27]:
data  group
0   0.0      0
1   1.0      0
2   NaN      0
3   3.0      1
4   NaN      1
5   5.0      0
6   NaN      0
7   NaN      0
8   NaN      1
9   NaN      1

如果我按group列分组并用limit=2转发填充该组，那么我生成的数据框将是

In [35]: df.groupby('group').ffill(limit=2)
Out[35]:
group  data
0      0   0.0
1      0   1.0
2      0   1.0
3      1   3.0
4      1   3.0
5      0   5.0
6      0   5.0
7      0   5.0
8      1   3.0
9      1   NaN

然而，我实际上想在这里做的只是向前填充到索引距离每个组的第一个索引在 2 以内的行，而不是每个组的接下来的 2 行。例如，如果我们只查看数据帧上的组：

In [36]: for i, group in df.groupby('group'):
...:     print(group)
...:
data  group
0   0.0      0
1   1.0      0
2   NaN      0
5   5.0      0
6   NaN      0
7   NaN      0
data  group
3   3.0      1
4   NaN      1
8   NaN      1
9   NaN      1

我希望这里的第二组只向前填充到索引 4---而不是 8 和 9。第一组的 NaN 值都与最后一个非 NaN 值相差 2 个索引，因此它们将被完全填充。生成的数据帧如下所示：

group  data
0      0   0.0
1      0   1.0
2      0   1.0
3      1   3.0
4      1   3.0
5      0   5.0
6      0   5.0
7      0   5.0
8      1   NaN
9      1   NaN

FWIW 在我的实际用例中，我的索引是一个日期时间索引(并且它是排序的)。

我目前有一个有效的解决方案，需要循环遍历在组索引上过滤的数据帧，根据索引为每个具有非 NaN 值的事件创建一个时间范围，然后将它们组合在一起。但这太慢了，不切实际。

import numpy as np
import pandas as pd
df = pd.DataFrame({
'data': [0.0, 1.0, 1, 3.0, np.nan, 22, np.nan, 5, np.nan, np.nan],
'group': [0, 0, 1, 0, 1, 0, 1, 0, 1, 1]})
df = df.reset_index()
df['stop_index'] = df['index'] + 2
df['stop_index'] = df['stop_index'].where(pd.notnull(df['data']))
df['stop_index'] = df.groupby('group')['stop_index'].ffill()
df['mask'] = df['index'] <= df['stop_index']
df.loc[df['mask'], 'data'] = df.groupby('group')['data'].ffill()
print(df)
#    index  data  group  stop_index   mask
# 0      0   0.0      0         2.0   True
# 1      1   1.0      0         3.0   True
# 2      2   1.0      1         4.0   True
# 3      3   3.0      0         5.0   True
# 4      4   1.0      1         4.0   True
# 5      5  22.0      0         7.0   True
# 6      6   NaN      1         4.0  False
# 7      7   5.0      0         9.0   True
# 8      8   NaN      1         4.0  False
# 9      9   NaN      1         4.0  False
# clean up df
df = df[['data', 'group']]
print(df)

收益率

data  group
0   0.0      0
1   1.0      0
2   1.0      1
3   3.0      0
4   1.0      1
5  22.0      0
6   NaN      1
7   5.0      0
8   NaN      1
9   NaN      1

这会将索引复制到列中，然后制作第二个stop_index列，该列是index，其大小为 (时间)窗口。

df = df.reset_index()
df['stop_index'] = df['index'] + 2

然后它使空行在stop_index匹配data中的空行：

df['stop_index'] = df['stop_index'].where(pd.notnull(df['data']))

然后，它会按组向前填充stop_index：

df['stop_index'] = df.groupby('group')['stop_index'].ffill()

现在(终于)我们可以定义所需的mask- 我们实际想要向前填充data的位置：

df['mask'] = df['index'] <= df['stop_index']
df.loc[df['mask'], 'data'] = df.groupby('group')['data'].ffill()

IIUC

l=[]
for i, group in df.groupby('group'):
idx=group.index
l.append(group.reindex(df.index).ffill(limit=2).loc[idx])
pd.concat(l).sort_index()
data  group
0   0.0    0.0
1   1.0    0.0
2   1.0    0.0
3   3.0    1.0
4   3.0    1.0
5   5.0    0.0
6   5.0    0.0
7   5.0    0.0
8   NaN    1.0
9   NaN    1.0

测试数据

data  group
0   0.0      0
1   1.0      0
2   1.0      1
3   3.0      0
4   NaN      1
5   22       0
6   NaN      1
7   5.0      0
8   NaN      1
9   NaN      1

我的测试数据方法

data  group
0   0.0    0.0
1   1.0    0.0
2   1.0    1.0
3   3.0    0.0
4   1.0    1.0
5  22.0    0.0
6   NaN    1.0# here not change , since the previous two do not have valid value for group 1 
7   5.0    0.0
8   NaN    1.0
9   NaN    1.0

与乌努布一起输出

data  group
0   0.0      0
1   1.0      0
2   1.0      1
3   3.0      0
4   1.0      1
5  22.0      0
6   1.0      1# miss match in here
7   5.0      0
8   NaN      1
9   NaN      1

相关内容

最新更新

热门标签：