Python:重构数据帧，并用预定义的行重新组合特定列中的数据

假设我有一个包含四列的数据帧："名称"值"Ccy"；以及"；组"：

import pandas as pd
Name = ['ID', 'Country', 'IBAN','Dan_Age', 'Dan_city', 'Dan_country', 'Dan_sex', 'Dan_Age', 'Dan_country','Dan_sex' , 'Dan_city','Dan_country' ]
Value = ['TAMARA_CO', 'GERMANY','FR56','18', 'Berlin', 'GER', 'M', '22', 'FRA', 'M', 'Madrid', 'ESP']
Ccy = ['','','','EUR','EUR','USD','USD','','CHF', '','DKN','']
Group = ['0','0','0','1','1','1','1','2','2','2','3','3']
df = pd.DataFrame({'Name':Name, 'Value' : Value, 'Ccy' : Ccy,'Group':Group})
print(df)

Name      Value  Ccy Group
0            ID  TAMARA_CO          0
1       Country    GERMANY          0
2          IBAN       FR56          0
3       Dan_Age         18  EUR     1
4      Dan_city     Berlin  EUR     1
5   Dan_country        GER  USD     1
6       Dan_sex          M  USD     1
7       Dan_Age         22          2
8   Dan_country        FRA  CHF     2
9       Dan_sex          M          2
10     Dan_city     Madrid  DKN     3
11  Dan_country        ESP          3

在将数据保存到csv中之前，我希望以不同的方式表示这些数据。我想将重复项分组在"；名称"；与"；值"；以及"；Ccy"；。我希望列"；值"；以及"；Ccy"；存储在由列"定义的行(索引(中；组"；。这样我就不会混淆数据了。
然后，如果该名称在"；组"；0，这意味着它是一般数据，所以我希望来自该"0"的所有行都是"0"；名称"；用相同的值填充。

所以我想得到这个结果：

ID_Value  Country_Value  IBAN_Value  Dan_age Dan_age_Ccy  Dan_city_Value Dan_city_Ccy Dan_sex_Value
1  TAMARA    GER            FR56        18      EUR          Berlin         EUR          M
2  TAMARA    GER            FR56        22                                               M
3  TAMARA    GER            FR56                             Madrid         DKN

我找不到如何做第一部分。使用下面的代码，如果我删除空列，我将无法得到我想要的evn

g = df.groupby(['Name']).cumcount()
df = df.set_index([g,'Name']).unstack().sort_index(level=1, axis=1)
df.columns = df.columns.map(lambda x: f'{x[0]}_{x[1]}')

任何人都可以帮助我！

谢谢

您可以使用以下内容。请参阅每个步骤代码中的注释：

s = df.loc[df['Group'] == '0', 'Name'].tolist() # this variable will be used later according to Condition 2
df['Name'] = pd.Categorical(df['Name'], categories=df['Name'].unique(), ordered=True) #this preserves order before pivoting
df = df.pivot(index='Group', columns='Name') #transforms long-to-wide per expected output
for col in df.columns:
if col[1] in s: df[col] = df[col].shift().ffill() #Condition 2
df = df.iloc[1:].replace('',np.nan).dropna(axis=1, how='all').fillna('') #dataframe cleanup
df.columns = ['_'.join(col) for col in df.columns.swaplevel()] #column name cleanup
df
Out[1]: 
ID_Value Country_Value IBAN_Value Dan_Age_Value Dan_city_Value  
Group                                                                    
1      TAMARA_CO       GERMANY       FR56            18         Berlin   
2      TAMARA_CO       GERMANY       FR56            22                  
3      TAMARA_CO       GERMANY       FR56                       Madrid   
Dan_country_Value Dan_sex_Value Dan_Age_Ccy Dan_city_Ccy  
Group                                                            
1                   GER             M         EUR          EUR   
2                   FRA             M                            
3                   ESP                                    DKN   
Dan_country_Ccy Dan_sex_Ccy  
Group                              
1                 USD         USD  
2                 CHF              
3

从那里，您可以删除不需要的列，从"更改字符串；TAMARA_；至"；TAMARA"德国"；至"；GER"；，使用reset_index(drop=True)等

只需3个步骤即可轻松完成：

将数据帧拆分为两部分：；一般数据"；(我们希望将其作为一个系列(和更具体的数据。现在，每个数据帧都包含相同种类的信息
问题的关键部分：重新组织数据。您所需要的只是熊猫枢轴功能。它正是你所需要的
将常规信息和透视数据重新添加到一起

# Split Data
general = df[df.Group == "0"].set_index("Name")["Value"].copy()
main_df = df[df.Group != "0"]
# Pivot Data
result = main_df.pivot(index="Group", columns=["Name"], 
values=["Value", "Ccy"]).fillna("")
result.columns = [f"{c[1]}_{c[0]}" for c in result.columns]
# Create a data frame that has an identical row for each group
general_df = pd.DataFrame([general]*3, index=result.index)
general_df.columns = [c + "_Value" for c in general_df.columns]
# Merge the data back together
result = general_df.merge(result, on="Group")

上面给出的结果并没有给出你想要的确切列顺序，所以你必须用手动指定

final_cols = ["ID_Value", "Country_Value", "IBAN_Value",
"Dan_age_Value", "Dan_Age_Ccy", "Dan_city_Value",
"Dan_city_Ccy", "Dan_sex_Value"]
result = result[final_cols]

相关内容

最新更新

热门标签：