如何删除每行中的重复列表(熊猫)?



我每行都有一个列表,我想通过保留分数中的最大值来删除重复的元素。

这是我的数据框 DF1 中的数据

pair    score
0   [A , A ]    1.0000
1   [A , F ]    0.9990
2   [A , G ]    0.9985
3   [A , G ]    0.9975
4   [A , H ]    0.9985
5   [A , H ]    0.9990

我希望看到结果为

pair    score
0   [A , A ]    1.0000
1   [A , F ]    0.9990
2   [A , G ]    0.9985
4   [A , H ]    0.9990

我尝试使用分组依据并设置分数 = 最大值,但它不起作用

首先,我认为在熊猫中使用list不是个好主意。

如果将列表转换为带有元组的帮助器列,则解决方案有效 - 然后使用drop_duplicatessort_values

df['new'] = df.pair.apply(tuple)
df = df.sort_values('score', ascending=False).drop_duplicates('new')
print (df)
pair   score     new
0  [A, A]  1.0000  (A, A)
1  [A, F]  0.9990  (A, F)
5  [A, H]  0.9990  (A, H)
2  [A, G]  0.9985  (A, G)

或 2 个新列:

df[['a', 'b']] = pd.DataFrame(df.pair.values.tolist())
df = df.sort_values('score', ascending=False).drop_duplicates(['a', 'b'])
print (df)
pair   score  a  b
0  [A, A]  1.0000  A  A
1  [A, F]  0.9990  A  F
5  [A, H]  0.9990  A  H
2  [A, G]  0.9985  A  G

使用字符串类型的排序值创建新列pair2,然后删除重复项 如果对具有值[A,G]并且[G,A]将它们视为相同,则将处理

df['pair2']=df.pair.map(sorted).astype(str)
df.sort_values('score',ascending=False).drop_duplicates('pair2',keep='first').drop('pair2',axis=1).reset_index(drop=True)

输出:

pair    score
[A, A]  1.0000
[A, F]  0.9990
[A, H]  0.9990
[A, G]  0.9985

最新更新