谢谢!
这可以通过将索引变成一列来实现。
以下是一个样本数据集(我想有人否决了你的问题,因为它不包括样本数据集(:
df=pd.DataFrame({'a':[1,2,2,3,4,4,5], 'b':[2,2,2,3,4,5,5]}, index=[0,1,1,2,3,5,5])
输出:
a b
0 1 2
1 2 2
1 2 2
2 3 3
3 4 4
5 4 5
5 5 5
然后您可以使用以下行。第一个reset_index((使用索引号创建一个新列。然后,您可以根据新索引列和另一列(本例中为b(删除重复项。之后,您可以使用set_index('index'(将索引设置为原始索引值:
df.reset_index().drop_duplicates(subset=['index','b']).set_index('index')
输出:
a b
index
0 1 2
1 2 2
2 3 3
3 4 4
5 4 5
如果你不想像JJ101的答案那样重置然后重新设置索引,你可以使用Panda的.duplicated()
方法而不是.drop_duplicates()
。
如果您关心索引和某些列b
中的重复项,则可以分别用df.index.duplicated()
和df.duplicated(subset="b")
标识相应的索引。使用&
运算符将它们组合起来,然后使用~
否定该交集,得到类似的结果
clean_df = df[~(df.index.duplicated() & df.duplicated(subset="b"))]
print(clean_df)
输出:
a b
0 1 2
1 2 2
2 3 3
3 4 4
5 4 5