我有一个数据帧,如下所示:
df1:
ACCOUNT_NAME Units GM
1. Sejal 12 12
2. Mohata 10 15
另一个数据帧为:
df2:
INPUT_FIELD TRANSL
1. ACCOUNT_NAME Account Name
2. GM Gross Margin
3. REVENUE Revenue
4. BU Business Unit
如果值存在于INPUT_FIELD中,我想将df1的列重命名为df2中的TRANSL值。
我尝试过:df1.columns = df1.columns.map(df2.set_index('INPUT_FIELD')['TRANSL'].get)
它将列重命名为:[‘账户名称’,无,‘毛利率’]
我想在不使用等号运算符的情况下选择性地重命名列,因为这个表将来可能会增长。
您可以使用Series.to_dict
方法将序列df2["TRANSL"]
转换为字典mappings
,然后使用DataFrame.rename
方法通过将mappings
dict传递给rename
方法的columns
参数来重命名df1
的列。
用途:
mappings = df2.set_index("INPUT_FIELD")["TRANSL"].to_dict()
df1.rename(columns=mappings, inplace=True)
print(df1)
此打印:
Account Name Units Gross Margin
0 Sejal 12 12
1 Mohata 10 15
您可以从df2.values
:轻松构建dict理解
df1.rename(columns={i:j for i,j in df2.values})
给出:
Account Name Units Gross Margin
1.0 Sejal 12 12
2.0 Mohata 10 15
Rename也接受映射器函数,因此您可以使用:
def mapper(x):
trans = df2.loc[df2.INPUT_FIELD == x, 'TRANSL']
return trans.iat[0] if len(trans)>0 else x
df1.rename(columns = mapper)
在我的测试中(使用timeit(,它比dict方式更长。只有当df2
中的行数超过1000并且列名位于第一行时,它才会更快,因为这样它就不会扫描整个值数组。