统计数据帧中常见的互斥元素



我有一个看起来像这样的数据帧:

df <- structure(c("IGTB10", "IGTB10", "IGTB100", "IGTB1004", "IGTB1007", 
"IGTB1009", "CD4 T-cells", "Monocytes", "CD4 T-cells", "CD4 T-cells", 
"CD4 T-cells", "Monocytes"), .Dim = c(6L, 2L), .Dimnames = list(
NULL, c("Individual", "cellType")))

我想统计有多少人同时拥有单核细胞和CD4细胞类型,有多少人分别只有单核细胞或CD4细胞。将其分组或汇总的最简单方法是什么?

一个非常快速的答案,没有任何包装,做表格来了解每个人是否患有CD4或单核细胞

table(df[,1],df[,2])
CD4 T-cells Monocytes
IGTB10             1         1
IGTB100            1         0
IGTB1004           1         0
IGTB1007           1         0
IGTB1009           0         1

如果你取行的总和,

rowSums(table(df[,1],df[,2]))
IGTB10  IGTB100 IGTB1004 IGTB1007 IGTB1009 
2        1        1        1        1 

只有IGTB10有2,这意味着CD4和单核细胞都有

如果我们在一段时间内使用所有代码,

sum(rowSums(table(df[,1],df[,2]))==2)

只有一个人同时具有CD4和单核细胞

最新更新