联接唯一 ID 上的两个数据帧,但如果 id 不存在,则使用另一个值



我有两个这样的数据帧:

UID    mainColumn .... (other columns of data)
1      apple
2      orange
3      apple
4      orange
5      berry
....
UID2   mainColumn2
1      truck
3      car
4      boat
5      plane
...

我需要将第二个数据帧连接到基于 UID 的数据帧上,但是如果 df2 不包含 uid,那么主列值就是我要使用的值。在上面的示例中,UID2 不包含值 2,因此最终表如下所示

UID    mainColumn ....
1      truck
2      orange
3      car
4      boat
5      plane
...

现在我知道我们可以以以下形式做一些事情

df1=df1.merge(df2,left_on='UID', right_on='UID2')

但我遇到的问题是不要替换缺失的值,并确保它们仍然包含在内。谢谢!

您可以将df2的列重命名为df1后可以使用combine_first()(例如 UID2 到 UID..( :

df2.columns=df1.columns#be careful, rename only matching columns
final_df=df2.set_index('UID').combine_first(df1.set_index('UID')).reset_index()

  UID mainColumn
0    1      truck
1    2     orange
2    3        car
3    4       boat
4    5      plane

我们可以先使用 merge ,然后fillna缺失值,最后drop额外的列:

final = df1.merge(df2, left_on='UID', right_on='UID2', how='left').drop('UID2', axis=1)
final['mainColumn'] = final['mainColumn2'].fillna(final['mainColumn'])
final.drop('mainColumn2', axis=1, inplace=True)

   UID mainColumn
0    1      truck
1    2     orange
2    3        car
3    4       boat
4    5      plane

最新更新