在python中基于2列同时删除数据集中的重复项



我有一个pandas数据框架,希望根据两个特定列的条目是否重复来删除行,从第一行开始向下进行(保留第一个hit并删除其他重复项)。

例如:

90 85827974

我不知道有什么直接的方法可以用col1或col2的方式来删除重复项,而不是AND,但是您可以简单地使用for循环来顺序删除您想要的列上的重复项。

for col in ['Group_1', 'Group_2']:
df.drop_duplicates(subset=col, inplace=True)

for col in df.columns[:2]:
df.drop_duplicates(subset=col, inplace=True)

它也会自动保留第一次出现,但你可以在方法中指定它:df.drop_duplicates(subset=col, inplace=True, keep='first')

相关内容

最新更新