假设我们有这个文件RNA.txt
GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG
我想搜索所有由重复至少1次的let G和T组成的序列。例如AGTTG或GGGGG T,或者可能是TAACGG但不是AAAAT也不是CCCT。。等
我尝试了命令:
grep -e "GT+" RNA.txt
我得到了以下输出:
GGGT
AAAACCGGTT
AAAAAG
检索到的前2个序列是正确的,但AAAAA G是错误的,因为它应该按任何顺序显示至少一个G和T序列。
假设您有:
cat file
GGGT
CCAAA
AAAACCGGTT
CCCCT
AAAAAG
AGTTG
GGGGGT
TAACGG
AAAAT
然后,您可以将此grep
与替换正则表达式一起使用
grep -E 'G.*T|T.*G' file
GGGT
AAAACCGGTT
AGTTG
GGGGGT
TAACGG
-E
:在grep
中启用了扩展正则表达式模式。我们也可以使用grep 'G.*T|T.*G' file
- CCD_ 5将以任何顺序匹配具有
G
和T
的行
如果我理解正确,你想grep所有至少有两个G或两个T:的行
grep -e "GG|TT" RNA.txt
使用交替算子|
相当简单。唯一的问题是:当像那样崩溃时,需要转义运算符。