具有相应二进制/顺序特征的分类特征上的聚集功能



我有一个带有启动数据的数据框架。

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
1      C1   0                 6           120.000                      0
2      C2   1                 2           250.000                      1
3      C2   1                 2           250.000                      1
4      C3   0                 5            50.000                      0

" Company"是公司名称,但是它可以多次出现,因为每行也持有有关特定员工的信息

"退出"是二进制的,0表示该公司未能退出,1表示成功。

" Funding_Rounds"是ordinal

" Funding_total"存储筹集的总金额,类型为(int(

" founders_have_degree"拥有有关公司的创始团队是否具有学位的信息,但每一行都适用于其他员工。1表示特定的创始人具有学位,0他/她不

-

我如何基于"公司"汇总,以便每个公司仅出现一次,而无需将" Funding_Rounds"号码或" Funding_total"汇总,同时概括创始人的学位数量?

我已经尝试过,但这并不能保留我需要的所有信息:

aggregation_functions = {'founders_have_degree': "sum"}
df_new = df.groupby(df['company']).aggregate(aggregation_functions)

所需的结果应该如此:

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
2      C2   1                 2           250.000                      2
4      C3   0                 5            50.000                      0

使用:

df_new=(df.groupby('company').agg({'exited':'first','funding_rounds':'first',
                      'funding_total':'first','founders_have_degree':'sum'}))

         exited  funding_rounds  funding_total  founders_have_degree
company                                                             
C1            0               6          120.0                     1
C2            1               2          250.0                     2
C3            0               5           50.0                     0

最新更新