如何按n.单词一行接一行地过滤文件

我有一个包含不同行的大文件。

我感兴趣的线路看起来很像：

lcl|NC_005966.1_gene_59 scaffold441.6   99.74   390 1   0   1   390 34065   34454   0.0  715
lcl|NC_005966.1_gene_59 scaffold2333.4  89.23   390 42  0   1   390 3114    2725    1e-138   488
lcl|NC_005966.1_gene_60 scaffold441.6   100.00  186 0   0   1   186 34528   34713   1e-95    344

现在我想得到模式'lcl|NC_'之后的行，但前提是第三个字（或行中的第n个字）小于100。

（在这种情况下，前两行，因为它们只得到了99.74和89.23的数字）

接下来应该将它们保存到一个新文件中。

这可以使它：

$ awk '$1 ~ /^lcl|NC_/ && $3<100' file
lcl|NC_005966.1_gene_59 scaffold441.6   99.74   390 1   0   1   390 34065   34454   0.0  715
lcl|NC_005966.1_gene_59 scaffold2333.4  89.23   390 42  0   1   390 3114    2725    1e-138   488

它检查两件事：
-从lcl|NC_开始的第一个字段：$1 ~ /^lcl|NC_/完成。（感谢Ed Morton改进了以前的$1~"^lcl|NC_"）
-第三字段<100:$3<100。

要保存到文件中，您可以执行以下操作：

awk '$1 ~ /^lcl|NC_/ && $3<100' file > new_file
                                      ^^^^^^^^^^

相关内容

最新更新

热门标签：