结束
的意思是QTD
10001
2020-01-01
2022-01-01
604
100022019-09-01 2021-10-01 1008 100032019-02-01 2020-12-01 568 100042020-03-01 2021-05-01 223 … … … … 999992020-02-01 2022-04-01 9394
我有一个数据集(如图所示),它由城市(列"IBGE")、日期和数量(列"QTD")组成。我试图将三件事提取到一个新列中:每个"IBGE"的开始日期,每个"IBGE"的结束日期,以及每个"代码"的平均值。
另外,在这样做之前,我应该改变我的数据集的索引吗?
面板数据是不平衡的,所以不同"值具有不同的开始和结束日期,以及平均值。如何创建一个包含以下信息的新数据框架?我想让数据框看起来像这样:
尝试使用groupby
和命名聚合:
#convert DATE column to datetime if needed
df["DATE"] = pd.to_datetime(df["DATE"])
output = df.groupby("IBGE").agg(Start=("DATE","min"),
End=("DATE","max"),
Mean_QTD=("QTD","mean"))