我有一个大数据集,包含以下变量
student_ID=c(rep("1001",8),rep("1002",3),rep("1003",11))
grades=c(NA,rep(40,2),50,60,90, 5,NA,51, rep(47,5),rep(70,5),rep(42,3))
Year=c(rep(2011,4),rep(2012,4),2011,2012,2013,rep(2011,4),rep(2012,3),rep(2013,4))
data<-data.table(student_ID,grades,Year)
setkey(data, student_ID)
我需要创建两个新的变量。一个代表学生的平均成绩。一个用于平均等级是否<50(如果是,则为1,如果否,则为0)。
一旦完成,我将在学生和年级级别上查看子集。
要创建按"student_ID"分组的两列,我们需要将(:=
)输出(mean(grades)
和二进制输出)分配给新的列名。
data[, c('MeanGrade', 'MeanGradelessthan50') :={tmp <- mean(grades, na.rm=TRUE)
list(tmp, +(tmp < 50))}, by = student_ID]
如果我们需要总结,而不是分配,请使用list
data[, {tmp <- mean(grades, na.rm=TRUE)
list(MeanGrade=tmp, MeanGradelessthan50 = +(tmp < 50))}, by = .(student_ID, Year)]