r-处理变量之间关系的数据范围



我有两个数据框,它们描述了三种变量之间的关系。这些数据框看起来像这样:

df1 <- data.frame(id = c("y1", "y2", "y3"), 
                  x1 = c(1, 0, 0), 
                  x2 = c(0, 1, 0), 
                  x3 = c(0, 1, 1))
df2 <- data.frame(item = c("z1", "z2", "z3"), 
                  x1 = c(1, 1, 1), 
                  x2 = c(0, 1, 0), 
                  x3 = c(0, 1, 1))

本质上,在每个数据帧的Colnames中标记的X变量解释了Y和Z变量之间的关系。我想作为y1,y2和y3的每个输出都是一个变量。每个变量应是与之匹配的Z变量的向量。例如,Y1应包含C(Z1,Z2,Z3),因为Y1对应于X1,而X1对应于所有三个Z项目。

我已经尝试了各种嵌套的循环并应用语句,到目前为止,我无法弄清楚如何做到这一点。

类似的东西?

library(tidyverse)
df1 %>% 
  gather(k, v1, -id) %>% 
  filter(v1 != 0) %>% 
  inner_join(gather(df2, k,v2, -item) %>% filter(v2 != 0), by="k") %>% 
  group_by(id) %>% 
  summarise(n=paste(unique(item), collapse = ","))
# A tibble: 3 x 2
      id        n
  <fctr>    <chr>
1     y1 z1,z2,z3
2     y2    z2,z3
3     y3    z2,z3

或尝试rowwise

df1 %>% 
  gather(k, v1, -id) %>%  
  filter(v1 != 0) %>% 
  rowwise() %>% 
  mutate(res=paste(df2$item[ select(df2, k) == 1 ], collapse=",")) %>% 
  ungroup()
# A tibble: 4 x 4
      id     k    v1      res
  <fctr> <chr> <dbl>    <chr>
1     y1    x1     1 z1,z2,z3
2     y2    x2     1       z2
3     y2    x3     1    z2,z3
4     y3    x3     1    z2,z3

相关内容

  • 没有找到相关文章

最新更新