我有两个数据框,它们描述了三种变量之间的关系。这些数据框看起来像这样:
df1 <- data.frame(id = c("y1", "y2", "y3"),
x1 = c(1, 0, 0),
x2 = c(0, 1, 0),
x3 = c(0, 1, 1))
df2 <- data.frame(item = c("z1", "z2", "z3"),
x1 = c(1, 1, 1),
x2 = c(0, 1, 0),
x3 = c(0, 1, 1))
本质上,在每个数据帧的Colnames中标记的X变量解释了Y和Z变量之间的关系。我想作为y1,y2和y3的每个输出都是一个变量。每个变量应是与之匹配的Z变量的向量。例如,Y1应包含C(Z1,Z2,Z3),因为Y1对应于X1,而X1对应于所有三个Z项目。
我已经尝试了各种嵌套的循环并应用语句,到目前为止,我无法弄清楚如何做到这一点。
类似的东西?
library(tidyverse)
df1 %>%
gather(k, v1, -id) %>%
filter(v1 != 0) %>%
inner_join(gather(df2, k,v2, -item) %>% filter(v2 != 0), by="k") %>%
group_by(id) %>%
summarise(n=paste(unique(item), collapse = ","))
# A tibble: 3 x 2
id n
<fctr> <chr>
1 y1 z1,z2,z3
2 y2 z2,z3
3 y3 z2,z3
或尝试rowwise
df1 %>%
gather(k, v1, -id) %>%
filter(v1 != 0) %>%
rowwise() %>%
mutate(res=paste(df2$item[ select(df2, k) == 1 ], collapse=",")) %>%
ungroup()
# A tibble: 4 x 4
id k v1 res
<fctr> <chr> <dbl> <chr>
1 y1 x1 1 z1,z2,z3
2 y2 x2 1 z2
3 y2 x3 1 z2,z3
4 y3 x3 1 z2,z3