我试图计算序列中特定字符模式的数量(fasta格式)。在我的例子中,我想计算上下文"CC"存在于一个序列中。整个脚本运行良好,但我遇到了一个小问题。
用于计算"CC"我使用脚本的以下部分:
CC=gsub(/CC/,"CC");
print CC
当我有一个像这样的快速序列时,我遇到了一个问题:
>name_sequence_1
CCCCC
在这种情况下,CC的数量应该是4(位置1-2,2-3,3-4和4-5),但gsub给我的数字是2,因为在替换第一个CC之后,它跳到第三个C,以此类推。
是否有任何方法我可以如何修复使用gsub或有另一个代码我可以用来计算这样的上下文?
谢谢!
假设您声明的预期输出是错误的,这可能是您想要做的:
$ echo 'CCCCC' |
awk '{
str = $0
cnt = 0
while ( sub(/CC/,"C",str) ) {
cnt++
}
print cnt
}'
4
$ echo 'CCCACCCCC' |
awk '{
str = $0
cnt = 0
while ( sub(/CC/,"C",str) ) {
cnt++
}
print cnt
}'
6
,但这里有一个更强大的通用解决方案,即使目标字符串不是1个字符的重复和/或它包含regexp或反向引用元字符:
$ echo 'CCCCC' |
awk '{
cnt = 0
for ( i=1; i<length($0); i++ ) {
cnt += ( substr($0,i,2) == "CC" )
}
print cnt
}'
4
$ echo 'CCCACCCCC' |
awk '{
cnt = 0
for ( i=1; i<length($0); i++ ) {
cnt += ( substr($0,i,2) == "CC" )
}
print cnt
}'
6