如何获得基于numpy中日期的窗口时间序列的回顾移动平均值

我有一个这样的时间序列：

                  times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 165
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
1994-07-29 14:15:00.000 | 62
1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61

我想对此数据进行回顾移动平均，但使用基于日期的窗口，而不是基于行或日期时间。

例如，假设lookback = 3 days，那么对于

1994-07-29 14:15:00.000 | 62

它的回溯移动平均值应该是的平均值

1994-07-26 18:45:00.000 | 165
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64

因为这是一个3天的回顾，所以无论一天内有多少行，平均值都将从1994-07-26开始，持续3天。

此外，对于具有相同日期（不包括时间）的多行，它们的回溯移动平均值应该相同。

我怎样才能轻松做到这一点？

我会使用pandas DatetimeIndex来累积每个日期的值。

然后可以使用rolling_mean来计算所需的平均值。

import numpy as np
import pandas
df = pandas.DataFrame({'times': np.array(['1994-07-25 15:15:00.000',
                                '1994-07-25 16:00:00.000', 
                                '1994-07-26 18:45:00.000', 
                                '1994-07-27 15:15:00.000', 
                                '1994-07-27 16:00:00.000', 
                                '1994-07-28 18:45:00.000', 
                                '1994-07-28 19:15:00.000', 
                                '1994-07-28 20:35:00.000', 
                                '1994-07-28 21:55:00.000', 
                                '1994-07-29 14:15:00.000', 
                                '1994-07-30 15:35:00.000', 
                                '1994-07-30 16:55:00.000'], dtype='datetime64'),
                       'data': [165,165,165,165,165,165,63,64,64,62,62,61]})
df = df.set_index('times')
g = df.groupby(df.index.date)
days = 3
pandas.rolling_mean(g.sum(), days)

这给出：

1994-07-25         NaN
1994-07-26         NaN
1994-07-27  275.000000
1994-07-28  283.666667
1994-07-29  249.333333
1994-07-30  180.333333

您可能希望使用rolling_mean上的center和min_periods参数来获得所需的确切结果。

我建议使用pandas，特别是resample函数：

import pandas as pd

首先，读取您的数据，假设保存为csv:

df=pd.read_csv('yourfile.txt',sep=' | ',parse_dates=True,index_col=0)

然后在一天内重新采样，注意这默认为每天样本的"平均值"：

df2 = df.resample('D')

获取最后3天：

df2[-3:]

给出：

            data
1994-07-28  89.0
1994-07-29  62.0
1994-07-30  61.5

假设yourfile.txt是这样保存的：

times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 16
1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165
1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64
1994-07-29 14:15:00.000 | 62
1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61

相关内容

最新更新

热门标签：