如果列重复并且只取嵌套字典中的第一个列，则移除键值

输入：我有一本这种形式的字典，里面有更多的数据

d = {
'ag': pd.DataFrame({'ID': ['id1', 'id1', 'id1'], 'name': ['a', 's', 'd'], 'num': [10, 7, 2]}),
'jk': pd.DataFrame({'ID': ['id2', 'id2', 'id2'], 'name': ['w', 'r', 'y'], 'num': [15, 8, 1]}),
'rp': pd.DataFrame({'ID': ['id1', 'id1'], 'name': ['f', 'n'], 'num': [13, 11]})
}

预期输出：如果ID(id1(在下一个键(rp(中再次重复，我想从字典(d(中删除键值。

d = {
'ag': pd.DataFrame({'ID': ['id1', 'id1', 'id1'], 'name': ['a', 's', 'd'], 'num': [10, 7, 2]}),
'jk': pd.DataFrame({'ID': ['id2', 'id2', 'id2'], 'name': ['w', 'r', 'y'], 'num': [15, 8, 1]})

}

我尝试过的代码：

new_d = {}
unique_ids = set()
for key in sorted(d.keys()):
key_ids = set(d[key]['ID'].tolist())
if not(key_ids & unique_ids):
new_d[key] = d[key]
unique_ids |= key_ids
print(new_d)

我需要一种不同的方法，对于大型数据集来说，这并不能给我带来好的结果。

想出一个函数来完成任务

def remove_duplicate_key(d):
#  'dt' temp variable to iterate over
dt=d.copy()
for i, key in zip(range(len(dt)), dt.keys()):
var = 'id'+str(i+1)
temp_df=dt.get(key, None)
if temp_df['ID'].value_counts().index[0]!=var:
d.pop(key, None)
print(d)
else:
continue
return d

它创建variable var='id'+str(i)，因为id无论如何都在递增。然后调用函数remove_duplicate_key(d)

相关内容

最新更新

热门标签：