我正在将两个大型CSV与包含接触信息的大熊猫进行比较。我想从一个CSV中删除包含其他CSV的任何电子邮件地址的行。
所以如果我有
df1
name phone email
1 1 hi@hi.com
2 2 bye@bye.com
3 3 yes@yes.com
df2
name phone email
x y bye@bye.com
a b yes@yes.com
我会留下
df3
name phone email
1 1 hi@hi.com
除了电子邮件地址外,我不在乎任何列。这似乎很容易,但是我真的很挣扎。
这是我拥有的,但我认为这甚至不接近:
def remove_warm_list_duplicates(dataframe):
'''Remove rows that have emails from the warmlist'''
warm_list = pd.read_csv(r'warmlist/' + 'warmlist.csv'
, encoding="ISO-8859-1"
, error_bad_lines=False)
warm_list_emails = warm_list['Email Address'].tolist()
dataframe = dataframe[dataframe['Email Address'].isin(warm_list_emails) == False]
您可以使用pandas isin()
df3 = df1[~df1['email'].isin(df2['email'])]
产生的df
name phone email
0 1 1 hi@hi.com
尝试以下:
In [143]: pd.merge(df1, df2[['email']], on='email', how='left', indicator=True)
.query("_merge == 'left_only'")
.drop('_merge',1)
Out[143]:
name phone email
0 1 1 hi@hi.com
您可以用unique()
简化一点并设置:
warm_list = pd.read_csv(r'warmlist/' + 'warmlist.csv',
encoding="ISO-8859-1",
error_bad_lines=False)
warm_list_emails = set(warm_list['Email Address'].unique())
df = df.loc[df['Email Address'].isin(warm_list_emails), :]