我有以下列表。

arr_lst = [(1, 34, 99), (2, 35, 40), (2, 36, 50), (2, 37, 10), (3, 37, 90), (3, 38, 8)]

我找到了字典键，这是元组中的第一项。

keys = {i[0] for i in arr_lst}
# output
# {1, 2, 3)

从那里，我创建了一个字典，如果元组中的第一个元素与前面定义的键匹配，则其值是第一个列表中的元组。

id_dict = dict()
for k in keys:
id_dict[k] = [i for i in arr_lst if i[0] == k]
# output
# {1: [(1, 34, 99)], 2: [(2, 35, 40), (2, 36, 50), (2, 37, 10)], 3: [(3, 37, 90), (3, 38, 8)]}

然后创建一个新列表，其元素是基于字典值的元组。如果元组的第三个元素在字典中值最高，则将其添加到列表中，并删除第三个元素。

output_id_etak_id = []
for k, v in id_dict.items():
m = max(v, key=lambda x: x[2])
output_id_etak_id.append(m[:2])
# output
# [(1, 34), (2, 36), (3, 37)]

代码工作了，我得到了想要的输出。然而，我有一个大数据集，在第一个列表中有超过80万个元素，目前运行它需要大约3个小时。我想想个办法让它快一点。

您可以itertools.groupby(期望排序的输入)根据元组的第一个元素组成组，然后使用next(由@tobias-k建议)选择该组的第一个元素。

注意: 为了使用next，我们需要使用比较键x[0],-x[-1]对列表进行排序，以便形成的组按降序排列。

from itertools import groupby
arr_lst = [(1, 34, 99), (2, 35, 40), (2, 36, 50), (2, 37, 10), (3, 37, 90), (3, 38, 8)]
arr_lst = sorted(arr_lst, key=lambda x:(x[0], -x[-1]))
result = [
next(group)[:2]
for key, group in groupby(arr_lst, key=lambda x: x[0])
]

Key =第一个元素;Value =第3个元素最大值的第2个元素

如果你想要第二个元素在第三个元素有最大值的地方，那么你可以使用下面的代码:

arr_lst = [(1, 34, 99), (2, 35, 40), (2, 36, 50), (2, 37, 10), (3, 37, 90), (3, 38, 8)]
arr_dict = {}
arr_temp = {}
for arr in arr_lst:
x = arr_temp.get(arr[0],-1)
if arr[2] > x:
arr_temp[arr[0]] = arr[2]
arr_dict[arr[0]] = arr[1]
arr_relist = [(k,v) for k,v in arr_dict.items()]
print (arr_relist)

它的输出将是:

[(1, 34), (2, 36), (3, 37)]

这个时间是:

For dictionary:
841 ns ± 21.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
Including recreating the list with tuples:
1.18 µs ± 41.1 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Key =第一个元素;Value =第3个元素的最大值

根据注释部分，我假设您希望元组中的第一个项是键，而元组中第三个项的最大值是键的值。

要做到这一点，只需要在循环中迭代一次。

你的代码将是:

arr_lst = [(1, 34, 99), (2, 35, 40), (2, 36, 50), (2, 37, 10), (3, 37, 90), (3, 38, 8)]
arr_dict = {}
for arr in arr_lst:
x = arr_dict.get(arr[0],-1)
if arr[2] > x: arr_dict[arr[0]] = arr[2]
print (arr_dict)

它的输出将是:

{1: 99, 2: 50, 3: 90}

我检查了这个的计时:

792 ns ± 15.6 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

您可以使用itertools。分组和映射执行此任务

import itertools
arr_lst = [(1, 34, 99), (2, 35, 40), (2, 36, 50), (2, 37, 10), (3, 37, 90), (3, 38, 8)]
def max_2_1(arr):
maxItem = next(arr)
for item in arr:
if item[2] > maxItem[2]:
maxItem = item
return maxItem[1]

arr_lst.sort(key = lambda kk: kk[0]) # important as groupby rely on this
aa = map( 
lambda keygroup: [ keygroup[0], max_2_1( keygroup[1] )  ],
itertools.groupby(arr_lst, key=lambda item: item[0])
)   
print(list(aa)) # [[1, 34], [2, 36], [3, 37]]

来自列表推导式的字典

Key =第一个元素;Value =第3个元素最大值的第2个元素

Key =第一个元素;Value =第3个元素的最大值

相关内容

最新更新

热门标签：