python/panda 在"cell1"和"cell2"下的"t"列上的多级数据帧上合并的方法是什么?
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(4).reshape(2, 2),
columns = [['cell 1'] * 2, ['t', 'sb']])
df2 = pd.DataFrame([[1, 5], [2, 6]],
columns = [['cell 2'] * 2, ['t', 'sb']])
现在当我尝试合并"t"
时,python REPL会出错
ddf = pd.merge(df1, df2, on='t', how='outer')
处理这个问题的好方法是什么?
pd.merge(df1, df2, left_on=[('cell 1', 't')], right_on=[('cell 2', 't')])
一种解决方案是删除顶层(例如 从数据帧cell_1
和cell_2
),然后合并。
如果需要,可以保存这些列,以便在合并后恢复它们。
c1 = df1.columns
c2 = df2.columns
df1.columns = df1.columns.droplevel()
df2.columns = df2.columns.droplevel()
df_merged = df1.merge(df2, on='t', how='outer', suffixes=['_df1', '_df2'])
df1.columns = c1
df2.columns = c2
>>> df_merged
t sb_df1 sb_df2
0 0 1 NaN
1 2 3 6
2 1 NaN 5