计算连续的字母和连字符，并将它们编码为运行长度

如何对连字符fasta格式字符串进行编码，以将所有连续的核苷酸和连字符分组并将它们编码为运行长度。

将我的序列视为"ATGC----CGCTA-----G---"。该字符串具有核苷酸序列，后跟连字符序列。我正在尝试将所有连续的核苷酸分组为字母M，将连续的连字符分组为字母D，并用子序列的大小作为前缀。

此编码的最终结果应4M4D5M5D1M3D 。

下面的图形进一步解释了它

ATGC----CGCTA-----G---
 |   |    |    |  |  |
 V   V    V    V  V  V
4M   4D  5M    5D 1M 3D

当我使用Counter或list.count()时，我得到"M":10 "D":12：

from collections import Counter
seq="ATGC----CGCTA-----G---"
M=0
D=0   
cigar=[]
for char in seq:    
    if char.isalpha():
        M+=1
        cigar.append("M")   
    else:
        D+=1
        cigar.append("D")
print Counter(cigar)

此问题非常适合 itertools.groupby

实现

from itertools import groupby
''.join('{}{}'.format(len(list(g)), 'DM'[k]) 
        for k, g in groupby(seq, key = str.isalpha))

输出 '4M4D5M5D1M3D'

解释

值得注意的是，关键功能在这里至关重要。根据序列是否是字母对序列进行分组。完成后，应该直接计算每个组的大小并从关键元素中找出组的类型。

代码的一些解释

'DM'[k] ：这只是一种表示"M" if k == True else "D"的漂亮方式
len(list(g)) ：确定每个组的大小。或者，它可以写成sum(1 for e in g)
'{}{}'.format：字符串格式，用于创建连续频率和类型的串联
''.join( ：将列表元素作为字符串序列连接起来。

import re
seq='ATGC----CGCTA-----G---'
output = ''
for section in re.split('(-*)', seq):
    if section.isalpha():
        output += str(len(section)) + 'M'
    elif section !='':
        output += str(len(section)) + 'D'
print output

经典方法：

seq="ATGC----CGCTA-----G---"
def MD(c):
    if c.isalpha():return "M"
    else : return "D"
count=1
string=""
for i in range(len(seq)-1):
    if MD(seq[i])==MD(seq[i+1]): count+=1
    else: 
        string=string+str(count)+MD(seq[i])
        count=1
string=string+str(count)+MD(seq[-1])
print string

相关内容

最新更新

热门标签：