为r中的各种id跨多行连接值



我的问题与以下线程高度相关:在R

中跨两行连接值主要区别在于,我只想连接那些具有相同ID的行。所以我需要包含某种类型的分组,但我不能这样做。

# desired input
input <- data.frame(ID = c(1,1,1,3,3,3),
X1 = c("A", 1, 11, "D", 4, 44),
X2 = c("B", 2, 22, "E", 5, 55),
X3 = c("C", 3, 33, "F", 6, 66))
# desired output
output <- data.frame(ID = c(1,3),
X1 = c("A-1-11", "D-4-44"),
X2 = c("B-2-22", "E-5-55"),
X3 = c("C-3-33", "F-6-66"))

我尝试了上述线程的解决方案,但这连接了所有六行:

output_v1 <- data.table::rbindlist(list(input, data.table::setDT(input)[, lapply(.SD, paste, collapse='-')]))

显然这不起作用,因为我没有按ID分组。但是在文档中我没有找到分组的方法。有人能给我指个方向吗?

非常感谢!

上面的问题得到了完美的回答,但是我注意到数据中的第二层复杂性:

# desired input
input2 <- data.frame(ID = c(1,1,1,3,3,3),
X1 = c("A", 1, 11, "D", 4, 44),
X2 = c("B", 2, 22, "E", 5, 55),
X3 = c("C", 3, 33, "F", 6, 66),
X4 = c("G", "G", "G", "H", 8, 88),
X5 = c("I", "I", "I", "J", "J", "J"),
X6 = c("K", "K", "0", "L", "L", "L"))
# desired output
output2 <- data.frame(ID = c(1,3),
X1 = c("A-1-11", "D-4-44"),
X2 = c("B-2-22", "E-5-55"),
X3 = c("C-3-33", "F-6-66"),
X4 = c("G", "H-8-88"),
X5 = c("I", "J"),
X6 = c("K-K-0", "L"))

有时一个列在一个ID内是完全相同的。在这种情况下,我不想多次连接相同的值,而是只使用一次。

我尝试了以下方法来识别一个ID内具有差异的列-我想要连接的那些列:

changes <- input2 |> 
group_by(ID) |> 
mutate(across(everything(), ~n_distinct(.x) > 1)) |> 
pivot_longer(-ID, names_to = "col", values_to = "changed") |> 
filter(changed) |> 
select(-changed) |> 
distinct()

那么我可以用不同的方式处理这两种情况:

data_concat <- input2 |>
as_tibble() |>
group_by(ID) |>
select(changes$col) |>
summarise(across(everything(), list(function(col) str_flatten(col, ", "))))
data_unique <- input2 |> 
dplyr::select(!all_of(changes$col)) |>
dplyr::distinct() 
data_new <- data_unique |>
left_join(data_concat, by = 'ID')

但是,这只适用于列X5,其中一个ID中的每个条目都是重复的。如何正确地对待X$和X6,我还没有弄清楚。有什么建议吗?

附加信息:如果该值在一个列和一个ID中是完全唯一的,那么它应该变成只有一个。如果不是这种情况,则应该将其连接起来。所以:KKKKK ->" KKKK0 ->"K-K-K-K-0", 5mm5 ->5-M-M-M-5", GGG99 ->"G-G-G-9-9"等。

注:如果认为扩大问题的范围不合适,我可以提出一个额外的问题。如果是这样,请发表评论。第一部分已经完美地回答了。

可以使用dplyr函数:

library(dplyr)
input %>% 
group_by(ID) %>% 
mutate(across(everything(), ~paste0(.,collapse = "-"))) %>% 
slice(1)
# A tibble: 2 × 4
# Groups:   ID [2]
ID X1     X2     X3    
<dbl> <chr>  <chr>  <chr> 
1     1 A-1-11 B-2-22 C-3-33
2     3 D-4-44 E-5-55 F-6-66

data.table

library(data.table)
setDT(input)[, lapply(.SD, paste, collapse='-'), by = ID]
ID     X1     X2     X3
1:  1 A-1-11 B-2-22 C-3-33
2:  3 D-4-44 E-5-55 F-6-66

与tidyverse:

library(tidyverse)
input %>% as_tibble() %>% group_by(ID) %>% summarise(across(everything(), list(function(col) str_flatten(col, '-'))))

的回报:

# A tibble: 2 × 4
ID X1_1   X2_1   X3_1  
<dbl> <chr>  <chr>  <chr> 
1     1 A-1-11 B-2-22 C-3-33
2     3 D-4-44 E-5-55 F-6-66

编辑输出2

input2 %>% as_tibble() %>% group_by(ID) %>% 
summarise(across(everything(), ~if_else(length(unique(.))==1, str_flatten(unique(.), '-'), str_flatten(., '-'))))

的回报:

# A tibble: 2 × 7
ID X1     X2     X3     X4     X5    X6   
<dbl> <chr>  <chr>  <chr>  <chr>  <chr> <chr>
1     1 A-1-11 B-2-22 C-3-33 G      I     K-K-0
2     3 D-4-44 E-5-55 F-6-66 H-8-88 J     L   

最新更新