更改R dply包中summary_all中的默认分隔符

我使用分隔符将重复的值组合成一列。我正在使用R dplyr库。

library (dplyr)
Input = read.csv("test.csv")
test=Input%>%
group_by(V1,V2,V3,V4,V5,V6)%>%
summarise_all(~toString(na.omit(.)))

我的输入数据如下所示*

V5>V6>V7V8V9>宇宙癌症，优势AT肺3531>AT心脏HGMD显性致病性AT9471>隐性AT肺宇宙癌症心脏><1td>发表癌症<1td>A肺癌症GC肺>HGMD癌症><1td>HGMD癌症

V1	V2	V3	V4
chr1	12364	12365	A	T	肺部	1236
chr1	12364	12365	发布	隐性
chr1	12364	12365	4616
chr1	12364	12365	大脑	发布
chr1	12364	12365
chr1	12364	12365	A	T	36481	良性
chr1	12364	12365	T	8351	宇宙
chr3	19261	19262	453	可能致病
chr5	171672	171673	T	G	6451	可能致病
chr15	10391	10391	G	T		8537	HGMD	癌症	可能致病性

请改用summarise_all(~paste(., collapse = "|"))。

示例：

library(tidyverse)
n <- 30
db <- tibble(x = sample(letters[1:4], n, replace = T),
y = sample(letters[1:5], n, replace = T))
db %>% group_by(x) %>% summarise_all(~paste(., collapse = "|")) %>% ungroup()

输出：

# A tibble: 4 × 2
x     y                  
<chr> <chr>              
1 a     b|a|c|d|d|e|a|b|b|a
2 b     c|b|e|c|b|c|b|a    
3 c     a|a|d|b|d|e|b|d|e|a
4 d     a|d

然而，我不太理解输入数据集中逗号的问题：一旦导入，它就不再是逗号分隔的文件。当然，如果您想将结果写为csv，您可以更改分隔符，但也可以在字段值周围使用引号。

相关内容

最新更新

热门标签：