如何确定RNA中G和T的组合重复至少一次的所有基因序列

  • 本文关键字:一次 RNA 何确定 组合 regex shell
  • 更新时间 :
  • 英文 :


假设我们有这个文件RNA.txt

GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG

我想搜索所有由重复至少1次的let G和T组成的序列。例如AGTTG或GGGGG T,或者可能是TAACGG但不是AAAAT也不是CCCT。。等

我尝试了命令:

grep -e "GT+" RNA.txt

我得到了以下输出:

GGGT
AAAACCGGTT
AAAAAG

检索到的前2个序列是正确的,但AAAAA G是错误的,因为它应该按任何顺序显示至少一个G和T序列。

假设您有:

cat file
GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG
AGTTG
GGGGGT
TAACGG
AAAAT

然后,您可以将此grep与替换正则表达式一起使用

grep -E 'G.*T|T.*G' file
GGGT
AAAACCGGTT
AGTTG
GGGGGT
TAACGG
  • -E:在grep中启用了扩展正则表达式模式。我们也可以使用grep 'G.*T|T.*G' file
  • CCD_ 5将以任何顺序匹配具有GT的行

如果我理解正确,你想grep所有至少有两个G或两个T:的行

grep -e "GG|TT" RNA.txt

使用交替算子|相当简单。唯一的问题是:当像那样崩溃时,需要转义运算符。

最新更新