如何循环浏览配对的fastq文件?对于单端读取,您可以执行以下
library(ShortRead)
strm <- FastqStreamer("./my.fastq.gz")
repeat {
fq <- yield(strm)
if (length(fq) == 0)
break
#do things
writeFasta(fq, 'output.fq', mode="a")
}
但是,如果我编辑一个配对的文件,我需要以某种方式跟踪第二个文件,以便两个文件继续彼此良好
通常订购配对的fastq文件,
因此,您可以跟踪已删除的行,并将其从配对文件中删除。但这不是一个很好的方法,如果您的数据已包裹,您将痛苦。
更好的方法是使用标题信息。
两个文件中配对读取的标题是相同的,除了指定读取是反向还是向前的字段(1或2)...
首先从文件1读取:@M02621:7:000000000-arath:1:1101:15643:1043 1:n:0:0:12
首先从文件2读取@M02621:7:000000000-Arath:1:1101:15643:1043 2:n:0:12
数字1101:15643:1043分别指瓷砖,x,y坐标。
。这些数字唯一地识别给定运行的每个读取对。使用此信息,如果它们不在第一个文件中,则可以从第二个文件中删除读取。
另外,如果您要进行质量修剪...三仪可以在配对数据上执行质量/长度过滤,并且快速...