我用以下代码将52G fastq文件拆分为10G块:
split -b 10G /home/bilalm/H_glaber_quality_filtering/AfterQC/good_reads/SRR530529.good.fq outputfile
这产生了以下文件:
-rw-rw-r-- 1 bilalm bilalm 10G Aug 11 13:48 outputfileaa
-rw-rw-r-- 1 bilalm bilalm 10G Aug 11 13:49 outputfileab
-rw-rw-r-- 1 bilalm bilalm 10G Aug 11 13:50 outputfileac
-rw-rw-r-- 1 bilalm bilalm 10G Aug 11 13:51 outputfilead
-rw-rw-r-- 1 bilalm bilalm 10G Aug 11 13:52 outputfileae
-rw-rw-r-- 1 bilalm bilalm 1.6G Aug 11 13:53 outputfileaf
当我试图组装";输出文件ab";,使用Velvet,我得到以下错误消息:
velveth: /home/bilalm/H_glaber_quality_filtering/AfterQC/good_reads/split_SRR530529_file/outputfileab does not seem to be in FastQ format
奇怪的是,通常使用天鹅绒和天鹅绒来组装第一个10G读数,即";输出文件aa";。
有人知道发生了什么事吗?
split
通过文件大小而不是行数来实现这一点,并且如果达到字节限制,将在行的中间进行拆分。如果每四行中就有一行以@
开头,那么velvet有一个检查要断言,所以考虑到split方法,这个检查将失败,这就是为什么我们在第二个文件而不是第一个文件上看到这种情况。我建议您通过传递-l xxxx
标志的行计数来split
此文件。