在字典中连续存储的单独值



我目前正在处理CS50问题集https://cs50.harvard.edu/x/2021/psets/6/dna/

这个问题只是告诉我们找到一些在txt文件中连续重复的DNA序列,并将总长度与csv文件中的人相匹配。

这是我目前工作的代码(尚未完成):

import re, csv, sys
def main(argv):
# Open csv file
csv_file = open(sys.argv[1], 'r')
str_person = csv.reader(csv_file)

nucleotide = next(str_person)[1:]

# Open dna sequences file
txt_file = open(sys.argv[2], 'r')
dna_file = txt_file.read()

str_repeat = {}
str_list = find_STRrepeats(str_repeat, nucleotide, dna_file)

def find_STRrepeats(str_list, nucleotide, dna):
for STR in nucleotide:
groups = re.findall(rf'(?:{STR})+', dna)
if len(groups) == 0:
str_list[STR] = 0
else:
str_list[STR] = groups
print(str_list)

if __name__ == "__main__":
main(sys.argv[1:])

输出(from the print(str_list)):

{'AGATC': ['AGATCAGATCAGATCAGATC'], 'AATG': ['AATG'], 'TATC': ['TATCTATCTATCTATCTATC']}

但是正如您所看到的,字典中的值也是连续存储的。如果我想在str_list[STR] = len(groups)中使用len函数,那么字典中的每个键都会产生1。因为我想找出DNA重复的时间(总长度),并将其作为值存储在我的字典中。

所以,我想把它单独存放。有点像这样:

{'AGATC': ['AGATC', 'AGATC', 'AGATC', 'AGATC'], 'AATG': ['AATG'], 'TATC': ['TATC', 'TATC', 'TATC', 'TATC', 'TATC']}

我应该在我的代码中添加什么,这样它们才能在昏迷时分离?或者我可以在ReGex代码groups = re.findall(rf'(?:{STR})+', dna)中添加一些条件?

我不想更改整个ReGex代码。因为我认为找到连续重复的字符串的最大长度已经很有用了。我为自己能够在没有帮助的情况下获得它而感到自豪,因为我是python的初学者。请非常感谢。

我只会存储最高重复次数:

...
if len(groups) == 0:
str_list[STR] = 0
else:
str_list[STR] = max(len(i)/len(str) for i in groups)
....

顺便说一句,这将正确处理存在多个序列的情况。

相关内容

最新更新