具有相应二进制/顺序特征的分类特征上的聚集功能

我有一个带有启动数据的数据框架。

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
1      C1   0                 6           120.000                      0
2      C2   1                 2           250.000                      1
3      C2   1                 2           250.000                      1
4      C3   0                 5            50.000                      0

" Company"是公司名称，但是它可以多次出现，因为每行也持有有关特定员工的信息

"退出"是二进制的，0表示该公司未能退出，1表示成功。

" Funding_Rounds"是ordinal

" Funding_total"存储筹集的总金额，类型为(int(

" founders_have_degree"拥有有关公司的创始团队是否具有学位的信息，但每一行都适用于其他员工。1表示特定的创始人具有学位，0他/她不

我如何基于"公司"汇总，以便每个公司仅出现一次，而无需将" Funding_Rounds"号码或" Funding_total"汇总，同时概括创始人的学位数量？

我已经尝试过，但这并不能保留我需要的所有信息：

aggregation_functions = {'founders_have_degree': "sum"}
df_new = df.groupby(df['company']).aggregate(aggregation_functions)

所需的结果应该如此：

   company  exited  funding_rounds  funding_total   founders_have_degree
0      C1   0                 6           120.000                      1
2      C2   1                 2           250.000                      2
4      C3   0                 5            50.000                      0

使用：

df_new=(df.groupby('company').agg({'exited':'first','funding_rounds':'first',
                      'funding_total':'first','founders_have_degree':'sum'}))

         exited  funding_rounds  funding_total  founders_have_degree
company                                                             
C1            0               6          120.0                     1
C2            1               2          250.0                     2
C3            0               5           50.0                     0

相关内容

最新更新

热门标签：