熊猫包含两列中的唯一值

我找不到任何优雅的方法来从第A列和第B列中选择唯一行，但不是联合选择，也不是按顺序选择。这是为了保持这两列中唯一值的"包含"交集。

我的目标是在列A和B之间保留尽可能多的唯一值。这些列是共同考虑的，但我正在寻找它们值的所有独特"组合"......

示例数据帧

df1 = pd.DataFrame({"A": [ "A1", "A2", "A2", "A3", "A3", ],
"B": [ "B1", "B1", "B2", "B3", "B1", ], },
index=[ 0, 1, 2, 3, 4, ])

结果：

A   B
0  A1  B1
1  A2  B1
2  A2  B2
3  A3  B3
4  A3  B1

这没有任何用处...

df2 = df1.drop_duplicates( subset=[ "A", "B", ], keep="first", inplace=False, )

结果：

A   B
0  A1  B1
1  A2  B1
2  A2  B2
3  A3  B3
4  A3  B1

下面的代码留下了重复的B1可以在以后使用列B上的drop_duplicates将其删除，但随后A2也将被删除，如果它与B2一起存在于一行中，则可以保留它，因为它在原始数据帧的index=2。

df3 = df1.drop_duplicates( subset=[ "A", ], keep="first", inplace=False, )

结果：

A   B
0  A1  B1
1  A2  B1
3  A3  B3

如上所述，A2被删除，但如果它与B2一起存在于一行中，则可以选择保留它，因为它位于原始数据帧的index=2。

df4 = df3.drop_duplicates( subset=[ "B", ], keep="first", inplace=False, )
A   B
0  A1  B1
3  A3  B3

期望的结果：

A   B
0  A1  B1
1  A2  B2
2  A3  B3

因此，我的目标是在A列和B列中保留尽可能多的唯一值。这些列是共同考虑的，但我正在寻找它们值的所有独特"组合"......

试试下面的代码：

df1.drop_duplicates( subset=[ "A" and "B"], keep="first", inplace=False, )

输出：

A   B
0   A1  B1
2   A2  B2
3   A3  B3

相关内容