在用bowtie2映射到基因组之前,我想将fastq文件中所有读取的开头修剪给定的长度。我使用过Cutadapt:
cutadapt -u 48 -o output.fastq.gz input.fastq.gz
修剪后的fastq文件如下所示:
gunzip -c output.fastq.gz | head
@NB502143:99:HFF7TAFX2:1:11101:4133:1019 1:N:0:ATCACG
CATGAAAAAGAGCTCATTTTCAGATGCAGGAATTCCTATCCG
+
EEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE
@NB502143:99:HFF7TAFX2:1:11101:19790:1020 1:N:0:ATCACG
CATGATCCACTTTTCCACGCGCTTTGACGACCATTTTATAA
+
EEEEE<EEEEEEEEEEEEEEEEE<EE/EEAEEEEEEEEEEE
@NB502143:99:HFF7TAFX2:1:11101:6327:1020 1:N:0:ATCACG
CATGATCTCAGTAAAGGCATTTGTGGTTGTTAAGTAGCCATT
当我试图用bowtie2绘制它时,我得到了以下错误消息:
Saw ASCII character 10 but expected 33-based Phred qual.
如果我映射input.fastq.gz,我不会得到这个错误,所以我怀疑在修剪过程中发生了什么错误,但我不知道是什么!我用FastQC检查了这两个文件,它们都是Sanger/Ilumina 1.9编码的。
谢谢你的帮助。
我也遇到过类似的问题。当我使用cutadapt
时会发生错误,但当我使用另一个工具fastp
修剪时不会发生错误。
检查得到的修剪后的fastq
文件的完整性表明,一些读取没有基础。fastq_utils包中的fastq_info
这样的工具可以工作。
如果出现问题,您可能需要在运行cutadapt
时使用-m <minimum-length>
标志。这将删除指定长度以下的读数。如果这是问题所在,那么之后的调整应该有效。