为每个名字添加2000-2008年之间所有缺失的月份



示例:

data <- data.frame(Name = c(rep("A",25), rep("B",50)),
Date = seq(as.Date("2018-01-01"), as.Date("2020-01-12"), by = 10),
C1 = rep(c(100,NA,NA,NA,NA,500,320,102,412,NA,200,NA,145,800,230),5),
C2 = rep(c(100,NA,NA,NA,NA,500,320,102,412,NA,200,NA,145,800,230),5)*2)

我有另一个数据集。我可以肯定的是,我从其他数据集中观察到的列名和列日期范围为2000-2008。

因此,我正在寻找一个修改后的代码,它不仅可以计算每个月的平均位数,还可以为每个名称添加 2000-2008 年间所有缺失的月份,并为其返回 NA 值。

感谢您的帮助:)

您可以使用tidyr::complete来确保在数据中包含每月的2000 - 2008

解决方案可以是:

library(tidyverse)
library(lubridate)
df %>% mutate(Date = ymd(Date), C2 = C1*2) %>% 
group_by(Name, YearMon = format(Date, "%Y-%m")) %>%
summarise_at(vars(starts_with("C")), median, na.rm=TRUE) %>%
complete(YearMon = 
format(seq(ymd("2001-01-01"), ymd("2008-12-31"), by="1 month"),"%Y-%m")) %>% 
as.data.frame()
#     Name YearMon  C1  C2
# 1      A 2001-01  NA  NA
# 2      A 2001-02  NA  NA
# 3      A 2001-03  NA  NA
# 4      A 2001-04  NA  NA
# 5      A 2001-05  NA  NA
# .............
# .............
# 180    B 2007-12  NA  NA
# 181    B 2008-01   4   8
# 182    B 2008-02  11  22
# 183    B 2008-03  13  26
# ............
# ..............

最新更新