我正在尝试编写一些可并行化的代码(解释plyr
和doMC
)来计算数据帧的列并从中减去分组平均值。我很难使plyr
语法正确。
以下是带有working for循环的脚本:
data = data.frame(x = rnorm(100),y = rnorm(100),ID = round(runif(100)*10))
data = data[with(data,order(ID)),]
dm = matrix(rep(NA,nrow(data)*(ncol(data)-1)),nrow(data),(ncol(data)-1))
for (i in 1:(ncol(data)-1)){
m = summaryBy(data[,i]~ID,data=data,fun=mean)
d = data.frame(data[,i],ID=data$ID)
a = merge(d,m,by="ID")
dm[,i] = a[,2]-a[,3]
}
但我试图使用ddply通过数据的列名来打破它,它会给我一条错误消息。这是我的非工作代码:
dmf = function(i){
m = summaryBy(data[,i]~ID,data=data,fun=mean)
d = data.frame(data[,i],ID=data$ID)
a = merge(d,m,by="ID")
dm = a[,2]-a[,3]
as.data.frame(dm)
}
dm = ddply(.data=data,.fun = dmf,.variables = colnames(data))
>Error in .subset(x, j) : invalid subscript type 'list'
有人能解决这个问题吗?
或者,如果这对矩阵来说是可行的,我会非常感谢比我有更好矩阵直觉的人提供的那种解决方案。
为了充分利用plyr
,我将结合colwise
和基函数scale
。此外,如果需要,让ddply
处理最高级别的并行化:
dm <- ddply(data, "ID", colwise(scale, center = TRUE, scale = FALSE),
.parallel = TRUE)