小贝子编程

提取非平衡数据集的开始日期、结束日期和平均数量

本文关键字：日期结束平均数开始平衡数据集提取 python r pandas dataframe
更新时间 : 2023-09-22
英文 : Pulling start date, end date, and mean quantity for unbalanced dataset

我有一个数据集(如图所示)，它由城市(列"IBGE")、日期和数量(列"QTD")组成。我试图将三件事提取到一个新列中:每个"IBGE"的开始日期，每个"IBGE"的结束日期，以及每个"代码"的平均值。

另外，在这样做之前，我应该改变我的数据集的索引吗?

面板数据是不平衡的，所以不同"值具有不同的开始和结束日期，以及平均值。如何创建一个包含以下信息的新数据框架?我想让数据框看起来像这样:

10001 2020-01-01 2022-01-01 604 100022019-09-012021-10-011008100032019-02-012020-12-01568100042020-03-012021-05-01223…………999992020-02-012022-04-019394

尝试使用groupby和命名聚合:

#convert DATE column to datetime if needed
df["DATE"] = pd.to_datetime(df["DATE"])
output = df.groupby("IBGE").agg(Start=("DATE","min"),
End=("DATE","max"),
Mean_QTD=("QTD","mean"))

提取非平衡数据集的开始日期、结束日期和平均数量

相关内容

最新更新

热门标签：