r-通过配对端FASTQ读取读取



如何循环浏览配对的fastq文件?对于单端读取,您可以执行以下

library(ShortRead)
strm <- FastqStreamer("./my.fastq.gz")
repeat {
       fq <- yield(strm)
       if (length(fq) == 0)
     break
       #do things
       writeFasta(fq, 'output.fq', mode="a")
       }

但是,如果我编辑一个配对的文件,我需要以某种方式跟踪第二个文件,以便两个文件继续彼此良好

通常订购配对的fastq文件,

因此,您可以跟踪已删除的行,并将其从配对文件中删除。但这不是一个很好的方法,如果您的数据已包裹,您将痛苦。

更好的方法是使用标题信息

两个文件中配对读取的标题是相同的,除了指定读取是反向还是向前的字段(1或2)...

首先从文件1读取:@M02621:7:000000000-arath:1:1101:15643:1043 1:n:0:0:12

首先从文件2读取@M02621:7:000000000-Arath:1:1101:15643:1043 2:n:0:12

数字1101:15643:1043分别指瓷砖,x,y坐标。

这些数字唯一地识别给定运行的每个读取对。使用此信息,如果它们不在第一个文件中,则可以从第二个文件中删除读取。

另外,如果您要进行质量修剪...三仪可以在配对数据上执行质量/长度过滤,并且快速...

最新更新