我有一个数据集,它使用numpy和pandas,并通过ID #查看员工和所有活动,如晋升、终止、工作切换等。我想做的是知道如何计算更改的数量并将它们分组到管理器。
这是一个数据样本。参考:1 =是0 =否
ID Date Job_Title ManagerID Status Terminated Job_Change Team_Change
1 May 2022 Sales Rep 7 Active 0 0 0
1 Oct 2022 Sales Consultant 7 Active 0 1 0
1 Jan 2023 Sales Consultant 7 Active 0 0 0
2 Feb 2022 Tech Advisor 3 Active 0 0 0
2 May 2022 Tech Advisor 3 Termed 1 0 0
3 Dec 2021 Sales Supervisor 7 Active 0 0 0
3 Jan 2022 Tech Supervisor 10 Active 0 1 1
3 Feb 2023 Tech Manager 10 Active 0 1 0
我想要的输出是:
ManagerID Terminated Job_Change Team Change
3 1 0 0
7 0 1 0
10 0 2 1
是否有一种方法可以在不创建新数据框架的情况下输出该输出?
您可以通过使用Pandas库按ManagerID对数据集进行分组,然后聚合每个类别(Terminated, Job_Change, Team_Change)中的事件数量来实现所需的输出。
下面是一个使用Pandas库的Python脚本:
import pandas as pd
# Assuming your data is stored in a DataFrame called 'data'
# Group the data by 'ManagerID' and sum the respective columns
result = data.groupby('ManagerID')[['Terminated', 'Job_Change',
'Team_Change']].sum()
# Reset the index to make 'ManagerID' a column again
result = result.reset_index()
print(result)
该脚本根据ManagerID对数据进行分组,然后计算Terminated、Job_Change和Team_Change列的总和。输出将是一个具有所需格式的新DataFrame。