我有一个熊猫数据帧,如下所示:
date_open date_closed rate
id
284113 2020-02-21 08:47:00+00:00 2020-03-04 08:55:28+00:00 11.588895
284114 2020-02-21 08:47:05+00:00 2020-03-04 08:55:22+00:00 11.588895
284115 2020-02-21 08:47:09+00:00 2020-03-04 08:55:13+00:00 11.588895
284116 2020-02-21 08:47:13+00:00 2020-03-04 08:55:07+00:00 11.559593
284117 2020-02-21 08:47:17+00:00 2020-03-04 08:53:11+00:00 11.530291
... ... ...
373069 2020-04-22 16:31:30+00:00 2020-04-30 17:25:55+00:00 3.481590
373070 2020-04-22 16:31:35+00:00 2020-04-30 17:25:23+00:00 3.510351
373071 2020-04-22 16:31:40+00:00 2020-04-30 17:24:25+00:00 3.529525
381966 2020-04-30 17:26:11+00:00 2020-04-30 17:28:43+00:00 -0.162813
381969 2020-04-30 17:26:49+00:00 2020-04-30 17:28:30+00:00 -0.181308
[131 rows x 3 columns]
我想添加一个列,称为efficiency
。
每一行应将efficiency
计算为rate
s>0的和除以rate
s<=具有date_closed
<=当前行的date_open
。
在python代码中(假设是dicts列表而不是数据帧(,我会得到这样的结果:
for element in list_of_dicts:
positive_rates = sum(list(filter(lambda x: x['rate'] > 0 and x['date_closed'] < element['date_open'], list_of_dicts)))
negative_rates = sum(list(filter(lambda x: x['rate'] < 0 and x['date_closed'] < element['date_open'], list_of_dicts)))
element['efficiency'] = postitive_rates / negative_rates
如有任何帮助,我们将不胜感激。非常感谢。
我可以想出两种方法来解决这个问题,一种在速度方面更好,另一种在内存方面更好。
第一:创建一个新列group
,执行一个外部merge
,使用mask
进行筛选,按id
分组,将lambda函数应用于分组的数据帧,并分配结果:
df['group'] = 1
df_merge = df.reset_index().merge(df[['date_closed', 'rate', 'group']],
how='outer', on='group')
mask = df_merge['date_open'] >= df_merge['date_closed_y']
results = df_merge[mask].groupby('id')
.apply(lambda df: df[df.rate_y > 0].rate_y.sum() /
df[df.rate_y <= 0].rate_y.sum())
df['efficiency'] = results
第二:简单的apply
函数到每行:
df['efficiency'] = df.apply(lambda x:
df[(df.date_closed <= x.date_open) & (df.rate > 0)].rate.sum()
/ df[(df.date_closed <= x.date_open) & (df.rate <= 0)].rate.sum(), axis=1)