如何使用占位符动态更新默认字典



我在向键添加值时尝试动态更新字典时遇到问题。

下面的代码本质上是循环遍历子目录,然后循环遍历每个子目录中的文件。然后简单地解析每个文件,并将数据添加到默认字典中。数据由两个字段组成:chrLocation(键)和editRatio(值)。我在这里要完成的是适应那些最初不是从第一个文件添加的键。请注意,键在每个文件中都是唯一的,但其他文件之间可能存在重复项。同样,可能会出现在 file7 中,而不是在前 6 个文件中。我想在我的字典中通过在第一个键条目之前有 6 个占位符(零)来显示这一点。

dataDict = defaultdict(list)
for root, dirs, filenames in os.walk(rootdir + "/out/"):
    for d in dirs:
        print "Processing: ", d
        colNames.append(d + "_" + sampOriginDict[d])
            for editingFile in os.listdir(rootdir + "/out/" + d):
                eFile = open(rootdir + "/out/" + d + "/" + editingFile, 'r')
                for line in eFile:
                    # only care about 3 fields (chromosome, location and editratio)
                    chromosome, location, x1, x2, x3, x4, editRatio, x5, x6, x7 = line.split("t")
                    chrLocation = chromosome + "_" + location
                    dataDict[chrLocation].append(editRatio)
下面

显示了循环访问 2 个文件的简短输出:

chr17_37916827 ['0.15']
chr16_29681751 ['0.1']
chr6_150045787 ['0.33']
chr10_75538108 ['0.43', '0.71']
chr15_64447436 ['0.5', '0.5']
chr16_15794023 ['0.21', '0.18']

截至目前,代码不适用于占位符。因此,通过查看输出,我不确定"0.15"是来自第一个文件还是第二个文件。

任何帮助将不胜感激。谢谢

编辑:我添加了一个条件来检查密钥是否已经存在,这是结果输出:

chr17_37916827 ['File2']
chr16_29681751 ['File1']
chr6_150045787 ['File2']
chr10_75538108 ['File1', 'exists']
chr15_64447436 ['File1', 'exists']
chr16_15794023 ['File1', 'exists']

法典:

if chrLocation in dataDict.keys(): 
    dataDict[chrLocation].append("exists")
else:
    dataDict[chrLocation].append(d)

我想实现输出:

chr17_37916827 ['0', 'File2']
chr16_29681751 ['File1', '0']
chr6_150045787 ['0', 'File2']
chr10_75538108 ['File1', 'exists']
chr15_64447436 ['File1', 'exists']
chr16_15794023 ['File1', 'exists']

使用当前方法执行此操作的方法

好的,所以你要么需要知道开始时有多少文件,并按索引或保持计数更改每个列表中的值,然后迭代您的defaultdict并将占位符值附加到低于该计数的任何文件......

前者的例子:

d = defaultdict(lambda: [0] * 7)

然后对于当前的i

dataDict[chrLocation][i] = editRatio

但我不建议这样做,因为听起来没有必要让这些占位符闲逛。


以不同的方式实现相同的目标

除非我误解了,否则目标实际上只是能够分辨哪些文件具有给定的密钥。也许使用这样的结构,

dataDict = defaultdict(dict)

而你正在做的地方dataDict[chrLocation].append(editRatio)反而做了,

dataDict[chrLocation][editingFile] = editRatio

然后,您可以检查位置和文件是否有值,

try:
    print(dataDict['chr10_75538108']['File1'])
except KeyError:
    print('Nope!')

或者,如果您不打算使用位置和文件进行查找,只需将(editingFile, editRatio)元组附加到列表中。

最新更新