如何从fasta中删除一组字符串



我有fastf

sp|A0A0B4J2F2|SIK1B_HUMAN推定丝氨酸/苏氨酸蛋白激酶SIK1B OS=Homo sapiens OX=9606 GN=SIK1B PE=5 SV=1MVIMSEFSADPAGQGQGQQKPLRVGFYDIERTLGKGNFAVVKLARHRVTKTQVAIKIIDK……>sp|A0A0B4J2F2|SIK1B_HUMAN_VEP推测丝氨酸/苏氨酸蛋白激酶SIK1B OS=Homo sapiens OX=9606 GN=SIK1B PE=5 SV=1MVIMSEFSADPAGQGQGQQKPLRVGFYDIERTLGKGNFAVVKLARHRVTKTQVAIKIIDK . .

都有相同的序列,但不同的id字符串。我想删除id和字符串没有_VEP和保存id和序列与_VEP。

我试试这个F2 -文件与seq,我需要删除F1 -文件与所有seqGrep -v -x -f - f2。fasta f1。fasta祝辞f3.fasta

和另一个变体{$0} = {$0} = 1;b[$0]' f2。fasta f1。fasta祝辞f3.fasta

我有这样的输出

sp|A0A0B4J2F2|SIK1B_HUMAN_VEP推测丝氨酸/苏氨酸蛋白激酶SIK1B OS=Homo sapiens OX=9606 GN=SIK1B PE=5 SV=1WITHOUT SEQ

但是我想要这个

>sp|A0A0B4J2F2|SIK1B_HUMAN_VEP推测丝氨酸/苏氨酸蛋白激酶SIK1B OS=Homo sapiens OX=9606 GN=SIK1B PE=5 SV=1MVIMSEFSADPAGQGQGQQKPLRVGFYDIERTLGKGNFAVVKLARHRVTKTQVAIKIIDK . .

建议awk脚本:

awk -F'|' '$3 ~ "_VEP "{print}' *.fasta

最新更新