更改R dply包中summary_all中的默认分隔符



我使用分隔符将重复的值组合成一列。我正在使用R dplyr库。

library (dplyr)
Input = read.csv("test.csv")
test=Input%>%
group_by(V1,V2,V3,V4,V5,V6)%>%
summarise_all(~toString(na.omit(.)))

我的输入数据如下所示*

V5>V6>V7V8V9>宇宙癌症,优势AT肺3531>AT心脏HGMD显性致病性AT9471>隐性AT肺宇宙癌症心脏><1td>发表癌症<1td>A肺癌症GC肺>HGMD癌症><1td>HGMD癌症
V1V2V3V4
chr11236412365AT肺部1236
chr11236412365发布隐性
chr112364123654616
chr11236412365大脑发布
chr11236412365
chr11236412365AT36481良性
chr11236412365T8351宇宙
chr31926119262453可能致病
chr5171672171673TG6451可能致病
chr151039110391GT8537HGMD癌症可能致病性

请改用summarise_all(~paste(., collapse = "|"))

示例:

library(tidyverse)
n <- 30
db <- tibble(x = sample(letters[1:4], n, replace = T),
y = sample(letters[1:5], n, replace = T))
db %>% group_by(x) %>% summarise_all(~paste(., collapse = "|")) %>% ungroup()

输出:

# A tibble: 4 × 2
x     y                  
<chr> <chr>              
1 a     b|a|c|d|d|e|a|b|b|a
2 b     c|b|e|c|b|c|b|a    
3 c     a|a|d|b|d|e|b|d|e|a
4 d     a|d                

然而,我不太理解输入数据集中逗号的问题:一旦导入,它就不再是逗号分隔的文件。当然,如果您想将结果写为csv,您可以更改分隔符,但也可以在字段值周围使用引号。

最新更新