这是我第一次发帖,请耐心等待。我有一个COVID数据集,看起来像这样:
date | county | confirmed
2021-05-01 Bexar 1200
2021-05-01 Travis 1500
2021-05-01 Harris 1300
2021-05-02 Bexar 1250
2021-05-02 Travis 1550
2021-05-02 Harris 1350
其中'confirmed'列是累加的。
实际上它是一个更大的数据集(多个日期和200多个县)。我想在数据集中添加一列,按国家给出每天的差异(新病例)。这样它就变成了:
date | county | confirmed | new_cases
2021-05-01 Bexar 1200 N/A
2021-05-01 Travis 1500 N/A
2021-05-01 Harris 1300 N/A
2021-05-02 Bexar 1250 50
2021-05-02 Travis 1530 30
2021-05-02 Harris 1340 40
我试着弄清楚如何在县上循环df.diff()命令,并每次将结果添加到df中。但是我对Python太陌生了,搞不懂。
假设您正在使用pandas
:
df = df.sort_values(by=['date'])
df['diff'] = df.groupby(['county'])['confirmed'].diff().fillna(0)