处理列表中的冗余

假设我有一个包含州和县的元组列表：

stList = [('NJ', 'Burlington County'),
('NJ', 'Middlesex County'),
('VA', 'Frederick County'),
('MD', 'Montgomery County'),
('NC', 'Lee County'),
('NC', 'Alamance County')]

对于这些项目中的每一个，我想将州与县一起压缩，如下所示：

new_list = [{'NJ': 'Burlington County'},
{'NJ': 'Middlesex County'},
{'VA': 'Frederick County'},
{'MD': 'Montgomery County'},
{'NC': 'Lee County'},
{'NC': 'Alamance County'}]

我尝试了这样的事情，但它无法正常工作(它遍历每个"字母"并单独压缩它们(：

new_list = []
for item in stList:
d1 = dict(zip(item[0], item[1]))
new_list.append(d1)

[{'N': 'B', 'J': 'u'},
{'N': 'M', 'J': 'i'},
{'V': 'F', 'A': 'r'},
{'M': 'M', 'D': 'o'},
{'N': 'L', 'C': 'e'},
{'N': 'A', 'C': 'l'}]

为了使事情变得更加复杂，我的最终目标是为每个州(键(提供一个字典列表，其中将县(值(作为列表。如何修复压缩词典，然后将县作为每个州的列表？

final_list = [{'NJ': ['Burlington County', 'Middlesex County']},
{'VA': 'Frederick County'},
{'MD': 'Montgomery County'},
{'NC': ['Lee County', 'Alamance County'}]

你会得到错误的结果，因为zip将字符串视为可迭代对象。这是预期行为。

你可能会得到一些接近你想要的东西，比如这样：

result = dict()
for state, county in stList:
result.setdefault(state, list()).append(county)
print(result)

结果是带有列表的单个字典。输出：

{'NJ': ['Burlington County', 'Middlesex County'], 'VA': ['Frederick County'], 'MD': ['Montgomery County'], 'NC': ['Lee County', 'Alamance County']}

Poolka 的setdefault解决方案是合理的、高性能的和可读的，但可以通过defaultdict变得更加直观：

from collections import defaultdict
result = defaultdict(list)
for state, county in stList:
result[state].append(county)

如果列表中有带有日期的三元组，则可以执行嵌套版本：

result = defaultdict(lambda: defaultdict(list))
for state, county, date in stList:
result[state][county].append(date)

对于没有上述任何属性的单行，您可以使用itertools.groupby;)

from itertools import groupby
{k: [x[1] for x in g] for k, g in groupby(sorted(stList), key=lambda x: x[0])}
# {'NC': ['Alamance County', 'Lee County'], 
#  'MD': ['Montgomery County'], 
#  'NJ': ['Burlington County', 'Middlesex County'], 
#  'VA': ['Frederick County']}

从算法上讲，这更糟，因为它必须对初始list进行排序。

我认为zip((不适合这个。以下是两个潜在的解决方案。如果您必须使用列表来存储结果，则必须在此答案之后更进一步。但是，如果对结果使用 dict 有效，那么这个答案可能会让你到达那里：

stList = [('NJ', 'Burlington County'),
('NJ', 'Middlesex County'),
('VA', 'Frederick County'),
('MD', 'Montgomery County'),
('NC', 'Lee County'),
('NC', 'Alamance County')]

new_list = []
for item in stList:
new_list.append({item[0]:item[1]})
print "new list: ", new_list

new_dict = {}
for item in stList:
if item[0] in new_dict:
new_dict[item[0]].append(item[1])
else:
new_dict[item[0]] = [item[1]]
print "new dict: ", new_dict

这些解决方案产生以下结果：

新列表： [{'NJ'： 'Burlington County'}， {'NJ'： 'Middlesex County'}， {'VA'： 'Frederick County'}， {'MD'： 'Montgomery County'}， {'NC'： 'Lee County'}， {'NC'： 'Alamance County'}]

新词典： {'VA'： ['弗雷德里克县']， 'NJ'： ['伯灵顿县'， '米德尔塞克斯县']， 'NC'： ['李县'， '阿拉曼斯县']， 'MD'： ['蒙哥马利县']}

列表理解似乎是最简单的方法

[{i[0]:i[1]} for i in stList]

输出

[{'NJ': 'Burlington County'},
{'NJ': 'Middlesex County'},
{'VA': 'Frederick County'},
{'MD': 'Montgomery County'},
{'NC': 'Lee County'},
{'NC': 'Alamance County'}]

您的代码被破坏的原因可能是由于对zip的误解。它基本上将每个名称视为一个单独的迭代器，并在s[:1]迭代前两个字符。如果你想在每个州的州和县之间进行映射，你可以试试这个：

mapping = {}
for state, cty in stList:
if (state in mapping):
mapping[state].append(cty)
else:
mapping[state] = [cty]

无论如何，这是最简单的方法。但是，如果你想使用迭代工具，你可以做一个这样的groupby：

mapping = dict( [ (k, [gg[1] for gg in g]) for k, g in groupby(stList, key = lambda x: x[0]) ] )

相关内容

最新更新

热门标签：