按标签属性合并data.frame列?



假设你有一个data.frame,其中一些列有一个'label'属性。

df1 <- data.frame(ID = letters[1:3], Qr1 = 1:3, Qr2 = 4:6, Qr3 = 7:9)
attr(df1$Qr1, 'label') <- 'dog'
attr(df1$Qr2, 'label') <- 'cat'
attr(df1$Qr3, 'label') <- 'bird'

你还有一个类似的第二个数据帧,但是变量不同词干(‘Question’而不是‘Q’)。还有一个带有"标签"的新变量属性'fish',变量被重新排序('cat'现在是第三,'bird'现在是第四个)

df2 <- data.frame(ID = letters[4:6], Questionr1 = 10:12, Questionr2 = 13:15, 
Questionr3 = 16:18, Questionr4 = 19:21)
attr(df2$Questionr1, 'label') <- 'dog'
attr(df2$Questionr2, 'label') <- 'fish'
attr(df2$Questionr3, 'label') <- 'cat'
attr(df2$Questionr4, 'label') <- 'bird'

你的目标是对齐'df1'与'df2',这样'df3'合并他们的数据关于'label'属性,它遵循'df2'的变量命名(有更多变量的那个):

> goal
ID Questionr1 Questionr2 Questionr3 Questionr4
1  a          1         NA          4          7
2  b          2         NA          5          8
3  c          3         NA          6          9
4  d         10         13         16         19
5  e         11         14         17         20
6  f         12         15         18         21

在与dplyr::bind_rows()绑定行之前,我试图用'label'属性中持有的字符串重新命名列。这适用于我的样本数据,但不是我的实际数据(我认为因为我的标签值很长)。

# rename columns by label for df1
temp1 <- df1
stem1 <- '^Qr'
idx1 <- grep(stem1, colnames(temp1))
nams1 <- colnames(temp1)[idx1]
for(i in seq_along(nams1)){

lab1 <- attr(temp1[[nams1[i]]], "label")
names(temp1) <- gsub(nams1[i], lab1, names(temp1))

}
# renames columns by label for df2
temp2 <- df2
stem2 <- "^Questionr"
idx2 <- grep(stem2, colnames(temp2))
nams2 <- colnames(temp2)[idx2]
for(i in seq_along(nams2)){

lab2 <- attr(temp2[[nams2[i]]], "label")
names(temp2) <- gsub(nams2[i], lab2, names(temp2))

}            
# bind the temp dfs
temp21 <- dplyr::bind_rows(temp2, temp1)
names(temp21) <- colnames(df2)
> temp21
ID Questionr1 Questionr2 Questionr3 Questionr4
1  d         10         13         16         19
2  e         11         14         17         20
3  f         12         15         18         21
4  a          1         NA          4          7
5  b          2         NA          5          8
6  c          3         NA          6          9

是否有一个函数,或更直接的方法,我可以用它们的属性标签来合并这些data.frame列?理想情况下,我希望以具有更多干变量的data.frame的原始变量名结束。

下面是使用tidyverse的一种(稍微不那么繁琐的)方法:

为属性(label)和问题(QR)定义一个查找表。data.frame (df2)和两个辅助函数,用于查找和读取属性。

library(tidyverse)
get_label <- attr_getter("label")
lut <- tibble(Qr = df2 %>% select(-ID) %>% names) %>% 
mutate(label = map_chr(Qr, ~ get_label(df2[[.]])))
lookup <- function(x) lut %>% filter(label == x) %>% pull(Qr)

df1df2对应的标签重命名列,连接和重命名结果的列。

goal <- full_join(
df1 %>% rename_with(~ map_chr(.x, ~ get_label(df1[[.]])), .cols = -ID),
df2 %>% rename_with(~ map_chr(.x, ~ get_label(df2[[.]])), .cols = -ID)
) %>% rename_with(~ map_chr(.x, ~lookup(.)), .cols = -ID) 
goal %>% select(sort(names(goal))) # optional reordering of columns
ID Questionr1 Questionr2 Questionr3 Questionr4
1  a          1         NA          4          7
2  b          2         NA          5          8
3  c          3         NA          6          9
4  d         10         13         16         19
5  e         11         14         17         20
6  f         12         15         18         21

最新更新