我该如何编写一个函数来检测熊猫数据帧是否存在重复。因此,如果我比较first
和second
之间的index
列,则不存在重复。但如果我比较first
和third
之间的index
列,则存在1
的重复。我想写一个函数,当有重复时返回True的bool
,当没有时返回False
。
import pandas as pd
first = pd.DataFrame({'index': [1,4,5,6],
'vals':[3,4,5,7] })
second = pd.DataFrame({'index': [13,7,8,9],
'vals':[3,2,3,1] })
third = pd.DataFrame({'index': [1,11,2,12],
'vals':[6,7,51,2] })
预期输出:
first and second: False
first and third: True
使用sets
谓词:
>>> any(set(first['index']).intersection(second['index']))
False # because {}
>>> any(set(first['index']).intersection(third['index']))
True # because {1}