提取非平衡数据集的开始日期、结束日期和平均数量



我有一个数据集(如图所示),它由城市(列"IBGE")、日期和数量(列"QTD")组成。我试图将三件事提取到一个新列中:每个"IBGE"的开始日期,每个"IBGE"的结束日期,以及每个"代码"的平均值。

另外,在这样做之前,我应该改变我的数据集的索引吗?

面板数据是不平衡的,所以不同"值具有不同的开始和结束日期,以及平均值。如何创建一个包含以下信息的新数据框架?我想让数据框看起来像这样:

10001 2020-01-01 2022-01-01 604 100022019-09-012021-10-011008100032019-02-012020-12-01568100042020-03-012021-05-01223…………999992020-02-012022-04-019394

尝试使用groupby和命名聚合:

#convert DATE column to datetime if needed
df["DATE"] = pd.to_datetime(df["DATE"])
output = df.groupby("IBGE").agg(Start=("DATE","min"),
End=("DATE","max"),
Mean_QTD=("QTD","mean"))

最新更新