R按顺序计数列


set.seed(0)
data = data.frame(ID = 1:1000, X1=runif(1000), X2=runif(1000), DROP1=sample(0:1,r=T),DROP2=sample(0:1,r=T),DROP3=sample(0:1,r=T))

假设这是我的数据。我希望这样做:计算DROP1的值的数量等于1;然后统计DROP1等于1的情况中DROP2的值的数目;则对DROP2等于1和DROP1等于1的情况中DROP3等于1的值的数目进行计数。我可以手动完成,但我们的实际数据文件很大,有80多个DROP变量。理想的输出只是一个看起来像的打印输出

DROP1, #
DROP2 (AFTER DROP1), #
DROP3 (AFTER DROP1 & DROP2), #

这里有一个base R选项,我们使用grep获取"DROP"列名('nm1'(。然后循环这些元素的序列,获得这些元素的seq,对数据列进行子集设置,使用Reduce获得具有&的逻辑向量(仅当一行的所有列都为1时为TRUE,即1=>TRUE,0=>FALSE(,并获得这些元素中的sum以返回计数

nm1 <- grep('^DROP', names(data), value = TRUE)
sapply(seq_along(nm1), function(i)  {i1 <- seq(i)
sum(Reduce(`&`, data[nm1[i1]])) })
#[1] 503 249 137

或使用data.table

library(data.table)
setDT(data)
lapply(seq_along(nm1), function(i) {
i1 <- seq(i)
data[, sum(Reduce(`&`, .SD)), .SDcols = nm1[i1]]
})

数据

set.seed(0)
data <- data.frame(ID = 1:1000, X1=runif(1000), X2=runif(1000), 
DROP1=sample(0:1,1000, replace = TRUE),
DROP2=sample(0:1,1000, replace = TRUE),
DROP3=sample(0:1,1000,replace = TRUE))

另一种选择:

set.seed(0)
data = data.frame(ID = 1:1000, X1=runif(1000), X2=runif(1000), DROP1=sample(0:1,1000,r=T),DROP2=sample(0:1,1000,r=T),DROP3=sample(0:1,1000,r=T))
tb <- table(data[,4:6])
tb
# , , DROP3 = 0
#      DROP2
# DROP1   0   1
#     0 108 126
#     1 118 112
# , , DROP3 = 1
#      DROP2
# DROP1   0   1
#     0 128 135
#     1 136 137
sum(tb[2,,])
# [1] 503
sum(tb[2,2,])
# [1] 249
sum(tb[2,2,2])
# [1] 137

证明,手工:

sum(with(data, DROP1 == 1L))
# [1] 503
sum(with(data, DROP1 == 1L & DROP2 == 1L))
# [1] 249
sum(with(data, DROP1 == 1L & DROP2 == 1L & DROP3 == 1L))
# [1] 137

相关内容

  • 没有找到相关文章

最新更新