r语言 - 移动平均线,考虑到NAs的价值和可用日期的差距



我正在处理一个跨越2008年至2015年的时间序列,但是我将注意力限制在每年的3月至8月。更复杂的是,一些值被标记为NA。

df的子集(不按日期排序)是这样的:

  Date       Value   Site
1 2008-08-20     NA  Kenya
2 2008-08-29 12.954  Kenya
3 2008-08-18 29.972  Kenya
4 2008-08-16  5.080  Kenya
5 2009-04-21  3.048  Kenya
6 2009-04-22 12.954  Kenya

可能是一个不重要的细节,因为子集是非常直接的,但为了澄清Site专栏的目的,我将提到有五个站点具有相同跨度的时间序列数据。

我想添加一个列Value10,给出10天移动平均线。我发现使用zooTTR等几个软件包中的一个可以很容易地实现这一点,但我希望移动平均线对日期和地点敏感,以便

    如果前10个值中的任何一个产生NA,则
  • 生成当天的NA
  • 为前10个值包含Date跳跃的那一天生成NA,例如从2008年8月到2009年3月。
  • 对它作用于
  • Site的数据敏感。

问题中的数据被复制为刚果,我们使用2而不是10的宽度,因此我们可以运行它而不会产生所有NA的琐碎结果:

# data for DF
Lines <- "  Date       Value   Site
2008-08-20     NA  Kenya
2008-08-29 12.954  Kenya
2008-08-18 29.972  Kenya
2008-08-16  5.080  Kenya
2009-04-21  3.048  Kenya
2009-04-22 12.954  Kenya
2008-08-20     NA  Congo
2008-08-29 12.954  Congo
2008-08-18 29.972  Congo
2008-08-16  5.080  Congo
2009-04-21  3.048  Congo
2009-04-22 12.954  Congo"
# set up DF, convert Date column to "Date" class
DF <- read.table(text = Lines, header = TRUE)
DF$Date <- as.Date(DF$Date)

对行进行排序,并使用ave按站点和年/月执行滚动平均值:

# sort rows
o <- order(DF$Site, DF$Date)
DF <- DF[o, ]
# perform rolling mean 
library(zoo)
# w <- 10
w <- 2
roll <- function(x) rollapplyr(c(rep(NA, w-1), x), w, mean)
DF$mean <- ave(DF$Value, DF$Site, as.yearmon(DF$Date), FUN = roll)

这给:

> DF
         Date  Value  Site   mean
10 2008-08-16  5.080 Congo     NA
9  2008-08-18 29.972 Congo 17.526
7  2008-08-20     NA Congo     NA
8  2008-08-29 12.954 Congo     NA
11 2009-04-21  3.048 Congo     NA
12 2009-04-22 12.954 Congo  8.001
4  2008-08-16  5.080 Kenya     NA
3  2008-08-18 29.972 Kenya 17.526
1  2008-08-20     NA Kenya     NA
2  2008-08-29 12.954 Kenya     NA
5  2009-04-21  3.048 Kenya     NA
6  2009-04-22 12.954 Kenya  8.001

UPDATES重新排列显示并添加更改ave行以使用yearmon .

最新更新