如何添加按类别'differences out'累积变量的列？

这是我第一次发帖，请耐心等待。我有一个COVID数据集，看起来像这样:

date        | county | confirmed
2021-05-01    Bexar     1200
2021-05-01    Travis    1500
2021-05-01    Harris    1300
2021-05-02    Bexar     1250
2021-05-02    Travis    1550
2021-05-02    Harris    1350

其中'confirmed'列是累加的。

实际上它是一个更大的数据集(多个日期和200多个县)。我想在数据集中添加一列，按国家给出每天的差异(新病例)。这样它就变成了:

date        | county | confirmed  | new_cases 
2021-05-01    Bexar     1200         N/A
2021-05-01    Travis    1500         N/A
2021-05-01    Harris    1300         N/A
2021-05-02    Bexar     1250         50
2021-05-02    Travis    1530         30
2021-05-02    Harris    1340         40

我试着弄清楚如何在县上循环df.diff()命令，并每次将结果添加到df中。但是我对Python太陌生了，搞不懂。

假设您正在使用pandas:

df = df.sort_values(by=['date'])
df['diff'] = df.groupby(['county'])['confirmed'].diff().fillna(0)

相关内容

最新更新

热门标签：