加速将字典中的键和值与python中的字符串进行比较



对不起,如果这是微不足道的,我还在学习,但我有一个字典列表,看起来像这样:

[{'1102': ['00576', '00577', '00578', '00579', '00580', '00581']},
{'1102': ['00582', '00583', '00584', '00585', '00586', '00587']},
{'1102': ['00588', '00589', '00590', '00591', '00592', '00593']},
{'1102': ['00594', '00595', '00596', '00597', '00598', '00599']},
{'1102': ['00600', '00601', '00602', '00603', '00604', '00605']}
...]

包含约89000个字典。我有一个包含4473208条路径的列表。例子:

['/****/**/******_1102/00575***...**0CT.csv',
'/****/**/******_1102/00575***...**1CT.csv',
'/****/**/******_1102/00575***...**2CT.csv',
'/****/**/******_1102/00575***...**3CT.csv',
'/****/**/******_1102/00575***...**4CT.csv',
'/****/**/******_1102/00578***...**1CT.csv',
'/****/**/******_1102/00578***...**2CT.csv',
'/****/**/******_1102/00578***...**3CT.csv',
...]

,我要做的是将包含分组值的每个路径在包含键的文件夹中的字典中分组在一起。

我尝试像这样使用for循环:

grpd_cts = []

for elem in tqdm(dict_list):
temp1 = []
for file in ct_paths:
for key, val in elem.items():
if (file[16:20] == key) and (any(x in file[21:26] for x in val)):
temp1.append(file)
grpd_cts.append(temp1)

但这需要大约30个小时。有没有办法让它更有效率?有没有itertools函数之类的?

非常感谢!

ct_paths在你的内部循环中反复迭代,你只对其中的一小部分感兴趣,用于测试目的;把它拿出来,用它来索引你的其他数据,就像一个字典。

使您的问题变得复杂的是,您希望以原始的文件名列表结束,因此您需要构造一个两级字典,其中的值是在这两个键下分组的所有原始列表。

ct_path_index = {}
for f in ct_paths:
ct_path_index.setdefault(f[16:20], {}).setdefault(f[21:26], []).append(f)
grpd_cts = []
for elem in tqdm(dict_list):
temp1 = []
for key, val in elem.items():
d2 = ct_path_index.get(key)
if d2:
for v in val:
v2 = d2.get(v)
if v2:
temp1 += v2
grpd_cts.append(temp1)

ct_path_index看起来像这样,使用您的数据:

{'1102': {'00575': ['/****/**/******_1102/00575***...**0CT.csv',
'/****/**/******_1102/00575***...**1CT.csv',
'/****/**/******_1102/00575***...**2CT.csv',
'/****/**/******_1102/00575***...**3CT.csv',
'/****/**/******_1102/00575***...**4CT.csv'],
'00578': ['/****/**/******_1102/00578***...**1CT.csv',
'/****/**/******_1102/00578***...**2CT.csv',
'/****/**/******_1102/00578***...**3CT.csv']}}

setdefault的使用(第一次看到它可能有点难以理解)在构建集合的集合时很重要,并且在这些情况下非常常见:它确保按需创建子集合,然后为给定的键重用。

现在,你只有两个嵌套循环;内部检查是使用字典查找完成的,这接近于0(1)。

其他优化包括将dict_list中的列表转换为集合,如果您多次遍历dict_list,这将是值得的。

最新更新