r-如何使用dplyr检测面板数据中变量随时间的变化



我使用的是面板数据,年龄变量存在一些差异。对于一些受访者来说,他们的年龄从一年到另一年增加或减少了1岁以上,正如我们在ID号为2和3的受访者中看到的那样。这可能是由于数据输入问题或其他我自己无法解决的原因。

有人能指导我如何创建一个新的变量来检测年龄增长超过1值或从一年到另一年年龄下降的人吗?

id  age year
1   25  2005
1   26  2006
1   27  2007
2   50  2006
2   51  2007
2   36  2008
3   25  2005
3   30  2006

structure(list(id = structure(c(1, 1, 1, 2, 2, 2, 3, 3), format.stata = "%9.0g"), 
age = structure(c(25, 26, 27, 50, 51, 36, 25, 30), format.stata = "%9.0g"), 
year = structure(c(2005, 2006, 2007, 2006, 2007, 2008, 2005, 
2006), format.stata = "%9.0g")), row.names = c(NA, -8L), class = c("tbl_df", 
"tbl", "data.frame"))

您可以使用group_bylag来检查更改。

df %>%
arrange(id, year) %>%
group_by(id) %>%
mutate(
age_change = age - lag(age),
age_bigincrease = age_change > 1,
age_decrease = age_change < 0
)

将返回

# A tibble: 8 x 6
# Groups:   id [3]
id   age  year age_change age_bigincrease age_decrease
<dbl> <dbl> <dbl>      <dbl> <lgl>           <lgl>       
1     1    25  2005         NA NA              NA          
2     1    26  2006          1 FALSE           FALSE       
3     1    27  2007          1 FALSE           FALSE       
4     2    50  2006         NA NA              NA          
5     2    51  2007          1 FALSE           FALSE       
6     2    36  2008        -15 FALSE           TRUE        
7     3    25  2005         NA NA              NA          
8     3    30  2006          5 TRUE            FALSE  

最新更新