我正在处理一个跨越2008年至2015年的时间序列,但是我将注意力限制在每年的3月至8月。更复杂的是,一些值被标记为NA。
df的子集(不按日期排序)是这样的:
Date Value Site
1 2008-08-20 NA Kenya
2 2008-08-29 12.954 Kenya
3 2008-08-18 29.972 Kenya
4 2008-08-16 5.080 Kenya
5 2009-04-21 3.048 Kenya
6 2009-04-22 12.954 Kenya
可能是一个不重要的细节,因为子集是非常直接的,但为了澄清Site
专栏的目的,我将提到有五个站点具有相同跨度的时间序列数据。
我想添加一个列Value10
,给出10天移动平均线。我发现使用zoo
或TTR
等几个软件包中的一个可以很容易地实现这一点,但我希望移动平均线对日期和地点敏感,以便
- 如果前10个值中的任何一个产生NA,则
- 生成当天的NA
- 为前10个值包含
Date
跳跃的那一天生成NA,例如从2008年8月到2009年3月。 - 对它作用于 的
Site
的数据敏感。问题中的数据被复制为刚果,我们使用2而不是10的宽度,因此我们可以运行它而不会产生所有NA的琐碎结果:
# data for DF
Lines <- " Date Value Site
2008-08-20 NA Kenya
2008-08-29 12.954 Kenya
2008-08-18 29.972 Kenya
2008-08-16 5.080 Kenya
2009-04-21 3.048 Kenya
2009-04-22 12.954 Kenya
2008-08-20 NA Congo
2008-08-29 12.954 Congo
2008-08-18 29.972 Congo
2008-08-16 5.080 Congo
2009-04-21 3.048 Congo
2009-04-22 12.954 Congo"
# set up DF, convert Date column to "Date" class
DF <- read.table(text = Lines, header = TRUE)
DF$Date <- as.Date(DF$Date)
对行进行排序,并使用ave
按站点和年/月执行滚动平均值:
# sort rows
o <- order(DF$Site, DF$Date)
DF <- DF[o, ]
# perform rolling mean
library(zoo)
# w <- 10
w <- 2
roll <- function(x) rollapplyr(c(rep(NA, w-1), x), w, mean)
DF$mean <- ave(DF$Value, DF$Site, as.yearmon(DF$Date), FUN = roll)
这给:
> DF
Date Value Site mean
10 2008-08-16 5.080 Congo NA
9 2008-08-18 29.972 Congo 17.526
7 2008-08-20 NA Congo NA
8 2008-08-29 12.954 Congo NA
11 2009-04-21 3.048 Congo NA
12 2009-04-22 12.954 Congo 8.001
4 2008-08-16 5.080 Kenya NA
3 2008-08-18 29.972 Kenya 17.526
1 2008-08-20 NA Kenya NA
2 2008-08-29 12.954 Kenya NA
5 2009-04-21 3.048 Kenya NA
6 2009-04-22 12.954 Kenya 8.001
UPDATES重新排列显示并添加更改ave
行以使用yearmon
.