假设你有一个data.frame,其中一些列有一个'label'属性。
df1 <- data.frame(ID = letters[1:3], Qr1 = 1:3, Qr2 = 4:6, Qr3 = 7:9)
attr(df1$Qr1, 'label') <- 'dog'
attr(df1$Qr2, 'label') <- 'cat'
attr(df1$Qr3, 'label') <- 'bird'
你还有一个类似的第二个数据帧,但是变量不同词干(‘Question’而不是‘Q’)。还有一个带有"标签"的新变量属性'fish',变量被重新排序('cat'现在是第三,'bird'现在是第四个)
df2 <- data.frame(ID = letters[4:6], Questionr1 = 10:12, Questionr2 = 13:15,
Questionr3 = 16:18, Questionr4 = 19:21)
attr(df2$Questionr1, 'label') <- 'dog'
attr(df2$Questionr2, 'label') <- 'fish'
attr(df2$Questionr3, 'label') <- 'cat'
attr(df2$Questionr4, 'label') <- 'bird'
你的目标是对齐'df1'与'df2',这样'df3'合并他们的数据关于'label'属性,它遵循'df2'的变量命名(有更多变量的那个):
> goal
ID Questionr1 Questionr2 Questionr3 Questionr4
1 a 1 NA 4 7
2 b 2 NA 5 8
3 c 3 NA 6 9
4 d 10 13 16 19
5 e 11 14 17 20
6 f 12 15 18 21
在与dplyr::bind_rows()
绑定行之前,我试图用'label'属性中持有的字符串重新命名列。这适用于我的样本数据,但不是我的实际数据(我认为因为我的标签值很长)。
# rename columns by label for df1
temp1 <- df1
stem1 <- '^Qr'
idx1 <- grep(stem1, colnames(temp1))
nams1 <- colnames(temp1)[idx1]
for(i in seq_along(nams1)){
lab1 <- attr(temp1[[nams1[i]]], "label")
names(temp1) <- gsub(nams1[i], lab1, names(temp1))
}
# renames columns by label for df2
temp2 <- df2
stem2 <- "^Questionr"
idx2 <- grep(stem2, colnames(temp2))
nams2 <- colnames(temp2)[idx2]
for(i in seq_along(nams2)){
lab2 <- attr(temp2[[nams2[i]]], "label")
names(temp2) <- gsub(nams2[i], lab2, names(temp2))
}
# bind the temp dfs
temp21 <- dplyr::bind_rows(temp2, temp1)
names(temp21) <- colnames(df2)
> temp21
ID Questionr1 Questionr2 Questionr3 Questionr4
1 d 10 13 16 19
2 e 11 14 17 20
3 f 12 15 18 21
4 a 1 NA 4 7
5 b 2 NA 5 8
6 c 3 NA 6 9
是否有一个函数,或更直接的方法,我可以用它们的属性标签来合并这些data.frame列?理想情况下,我希望以具有更多干变量的data.frame的原始变量名结束。
下面是使用tidyverse
的一种(稍微不那么繁琐的)方法:
为属性(label
)和问题(QR
)定义一个查找表。data.frame (df2
)和两个辅助函数,用于查找和读取属性。
library(tidyverse)
get_label <- attr_getter("label")
lut <- tibble(Qr = df2 %>% select(-ID) %>% names) %>%
mutate(label = map_chr(Qr, ~ get_label(df2[[.]])))
lookup <- function(x) lut %>% filter(label == x) %>% pull(Qr)
用df1
和df2
对应的标签重命名列,连接和重命名结果的列。
goal <- full_join(
df1 %>% rename_with(~ map_chr(.x, ~ get_label(df1[[.]])), .cols = -ID),
df2 %>% rename_with(~ map_chr(.x, ~ get_label(df2[[.]])), .cols = -ID)
) %>% rename_with(~ map_chr(.x, ~lookup(.)), .cols = -ID)
goal %>% select(sort(names(goal))) # optional reordering of columns
ID Questionr1 Questionr2 Questionr3 Questionr4
1 a 1 NA 4 7
2 b 2 NA 5 8
3 c 3 NA 6 9
4 d 10 13 16 19
5 e 11 14 17 20
6 f 12 15 18 21