如何基于另一数据帧重命名一个数据帧中的特定列



我有一个数据帧,如下所示:

df1: ACCOUNT_NAME Units GM 1. Sejal 12 12 2. Mohata 10 15

另一个数据帧为:

df2: INPUT_FIELD TRANSL 1. ACCOUNT_NAME Account Name 2. GM Gross Margin 3. REVENUE Revenue 4. BU Business Unit

如果值存在于INPUT_FIELD中,我想将df1的列重命名为df2中的TRANSL值。

我尝试过:df1.columns = df1.columns.map(df2.set_index('INPUT_FIELD')['TRANSL'].get)

它将列重命名为:[‘账户名称’,无,‘毛利率’]

我想在不使用等号运算符的情况下选择性地重命名列,因为这个表将来可能会增长。

您可以使用Series.to_dict方法将序列df2["TRANSL"]转换为字典mappings,然后使用DataFrame.rename方法通过将mappingsdict传递给rename方法的columns参数来重命名df1的列。

用途:

mappings = df2.set_index("INPUT_FIELD")["TRANSL"].to_dict()
df1.rename(columns=mappings, inplace=True)
print(df1)

此打印:

Account Name  Units  Gross Margin
0        Sejal     12            12
1       Mohata     10            15

您可以从df2.values:轻松构建dict理解

df1.rename(columns={i:j for i,j in df2.values})

给出:

Account Name  Units  Gross Margin
1.0        Sejal     12            12
2.0       Mohata     10            15

Rename也接受映射器函数,因此您可以使用:

def mapper(x):
trans = df2.loc[df2.INPUT_FIELD == x, 'TRANSL']
return trans.iat[0] if len(trans)>0 else x
df1.rename(columns = mapper)

在我的测试中(使用timeit(,它比dict方式更长。只有当df2中的行数超过1000并且列名位于第一行时,它才会更快,因为这样它就不会扫描整个值数组。

最新更新