我希望在词典列表中合并词典。我的字典列表如下所示：

opt = [{'expiry': '2020-06-26', 'strike': 138.5, 'p_bid': 0.4375, 'p_ask': 0.46875}, 
{'expiry': '2020-06-26', 'strike': 139.0, 'p_bid': 0.6875, 'p_ask': 0.71875}, 
{'expiry': '2020-07-22', 'strike': 139.0, 'p_bid': 1.015625, 'p_ask': 1.0625}, 
{'expiry': '2020-06-26', 'strike': 138.5, 'c_bid': 0.6875, 'c_ask': 0.734375}, 
{'expiry': '2020-06-26', 'strike': 139.0, 'c_bid': 0.4375, 'c_ask': 0.484375}, 
{'expiry': '2020-07-22', 'strike': 139.0, 'c_bid': 0.28125, 'c_ask': 0.3125}]

字典需要成对组合，其中"到期"和"行使价"相同。所需的输出如下所示：

[{'expiry': '2020-06-26', 'strike': 138.5, 'p_bid': 0.4375, 'p_ask': 0.46875, 'c_bid': 0.6875, 'c_ask': 0.734375}, 
{'expiry': '2020-06-26', 'strike': 139.0, 'p_bid': 0.6875, 'p_ask': 0.71875, 'c_bid': 0.4375, 'c_ask': 0.484375}, 
{'expiry': '2020-07-22', 'strike': 139.0, 'p_bid': 1.015625, 'p_ask': 1.0625, 'c_bid': 0.28125, 'c_ask': 0.3125}}]

"幼稚"方法：

将字典添加到新的结果列表。对于每个新词典，请检查它是否与列表中已有的词典匹配。如果是这样，请合并它们。如果没有，请将其添加到列表中：

res = [opt[0]]
for d_new in opt[1:]:
for d in res:
if d['expiry'] == d_new['expiry'] and d['strike'] == d_new['strike']:
#if (d['expiry'], d['strike']) == (d_new['expiry'], d_new['strike']):
d.update(d_new)
break
else:
res.append(d_new)

这使用for/else结构，这在这里很有用，因为只有当它与结果列表中的任何其他词典不匹配时，我们才希望将新词典添加到列表中。如果我们找到匹配项，我们将它们合并并break并且不会执行else。

略有改进：

上述方法导致循环每个字典的所有字典的时间复杂度为O(n^2)(不完全是，但在学术上这仍然是O(n^2)(。为了尝试改进这一点，第二种方法是一次性将具有相似expiry和strike的字典组合在一起(O(n)(：

from collections import defaultdict
merged_dicts = defaultdict(dict)
for d in opt:
merged_dicts[(d['expiry'], d['strike'])].update(d)
res = list(merged_dicts.values())

这使用collections.defaultdict轻松合并字典，而无需太多if条件。我们还使用dict的update方法来实际合并它们。

一个相当简单的方法是使用熊猫：

df = pd.DataFrame(opt)
df = df.drop_duplicates(subset = ["expiry", "strike"])
[ v.dropna().to_dict() for k,v in df.iterrows() ]

结果为：

[{'expiry': '2020-06-26', 'strike': 138.5, 'p_bid': 0.4375, 'p_ask': 0.46875},
{'expiry': '2020-06-26', 'strike': 139.0, 'p_bid': 0.6875, 'p_ask': 0.71875},
{'expiry': '2020-07-22', 'strike': 139.0, 'p_bid': 1.015625, 'p_ask': 1.0625}]

请注意，在删除重复项时，我将保留第一个元素。如果需要，可以轻松保留最后一个元素，但使用：

df = df.drop_duplicates(subset = ["expiry", "strike"], keep="last")

在这种情况下，结果是：

[{'expiry': '2020-06-26', 'strike': 138.5, 'c_bid': 0.6875, 'c_ask': 0.734375},
{'expiry': '2020-06-26', 'strike': 139.0, 'c_bid': 0.4375, 'c_ask': 0.484375},
{'expiry': '2020-07-22', 'strike': 139.0, 'c_bid': 0.28125, 'c_ask': 0.3125}]

另一种方法是使用字典来减少"相似"值：

reduction_dict = {(x["expiry"], x["strike"]):x for x in opt }
list(reduction_dict.values())

根据两个值在列表中组合词典

"幼稚"方法：

略有改进：

相关内容

最新更新

热门标签：