示例:
data <- data.frame(Name = c(rep("A",25), rep("B",50)),
Date = seq(as.Date("2018-01-01"), as.Date("2020-01-12"), by = 10),
C1 = rep(c(100,NA,NA,NA,NA,500,320,102,412,NA,200,NA,145,800,230),5),
C2 = rep(c(100,NA,NA,NA,NA,500,320,102,412,NA,200,NA,145,800,230),5)*2)
我有另一个数据集。我可以肯定的是,我从其他数据集中观察到的列名和列日期范围为2000-2008。
因此,我正在寻找一个修改后的代码,它不仅可以计算每个月的平均位数,还可以为每个名称添加 2000-2008 年间所有缺失的月份,并为其返回 NA 值。
感谢您的帮助:)
您可以使用tidyr::complete
来确保在数据中包含每月的2000 - 2008
。
解决方案可以是:
library(tidyverse)
library(lubridate)
df %>% mutate(Date = ymd(Date), C2 = C1*2) %>%
group_by(Name, YearMon = format(Date, "%Y-%m")) %>%
summarise_at(vars(starts_with("C")), median, na.rm=TRUE) %>%
complete(YearMon =
format(seq(ymd("2001-01-01"), ymd("2008-12-31"), by="1 month"),"%Y-%m")) %>%
as.data.frame()
# Name YearMon C1 C2
# 1 A 2001-01 NA NA
# 2 A 2001-02 NA NA
# 3 A 2001-03 NA NA
# 4 A 2001-04 NA NA
# 5 A 2001-05 NA NA
# .............
# .............
# 180 B 2007-12 NA NA
# 181 B 2008-01 4 8
# 182 B 2008-02 11 22
# 183 B 2008-03 13 26
# ............
# ..............