如何确定RNA中G和T的组合重复至少一次的所有基因序列

假设我们有这个文件RNA.txt

GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG

我想搜索所有由重复至少1次的let G和T组成的序列。例如AGTTG或GGGGG T，或者可能是TAACGG但不是AAAAT也不是CCCT。。等

我尝试了命令：

grep -e "GT+" RNA.txt

我得到了以下输出：

GGGT
AAAACCGGTT
AAAAAG

检索到的前2个序列是正确的，但AAAAA G是错误的，因为它应该按任何顺序显示至少一个G和T序列。

假设您有：

cat file
GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG
AGTTG
GGGGGT
TAACGG
AAAAT

然后，您可以将此grep与替换正则表达式一起使用

grep -E 'G.*T|T.*G' file
GGGT
AAAACCGGTT
AGTTG
GGGGGT
TAACGG

如果我理解正确，你想grep所有至少有两个G或两个T:的行

grep -e "GG|TT" RNA.txt

使用交替算子|相当简单。唯一的问题是：当像那样崩溃时，需要转义运算符。

相关内容