我有一个带有启动数据的数据框架。
company exited funding_rounds funding_total founders_have_degree
0 C1 0 6 120.000 1
1 C1 0 6 120.000 0
2 C2 1 2 250.000 1
3 C2 1 2 250.000 1
4 C3 0 5 50.000 0
" Company"是公司名称,但是它可以多次出现,因为每行也持有有关特定员工的信息
"退出"是二进制的,0表示该公司未能退出,1表示成功。
" Funding_Rounds"是ordinal
" Funding_total"存储筹集的总金额,类型为(int(
" founders_have_degree"拥有有关公司的创始团队是否具有学位的信息,但每一行都适用于其他员工。1表示特定的创始人具有学位,0他/她不
-
我如何基于"公司"汇总,以便每个公司仅出现一次,而无需将" Funding_Rounds"号码或" Funding_total"汇总,同时概括创始人的学位数量?
我已经尝试过,但这并不能保留我需要的所有信息:
aggregation_functions = {'founders_have_degree': "sum"}
df_new = df.groupby(df['company']).aggregate(aggregation_functions)
所需的结果应该如此:
company exited funding_rounds funding_total founders_have_degree
0 C1 0 6 120.000 1
2 C2 1 2 250.000 2
4 C3 0 5 50.000 0
使用:
df_new=(df.groupby('company').agg({'exited':'first','funding_rounds':'first',
'funding_total':'first','founders_have_degree':'sum'}))
exited funding_rounds funding_total founders_have_degree
company
C1 0 6 120.0 1
C2 1 2 250.0 2
C3 0 5 50.0 0