通过group_id仅在某个估计窗口中使用观测值并将预测添加回熊猫数据帧来循环回归



我正在尝试学习如何在python 3.7中执行一些操作,这些操作通常在Stata中很容易完成。

我正在处理这样的数据帧:

estimation_window    group_id         y            x   
0                       1             3.17         23
1                       1             4.76         26
1                       2             4.17         73
1                       2             8.70         72
0                       2             11.45        16

我想有一个 for 循环来估计 group_id 中每个不同组的线性回归(x 上的 y(,仅使用虚拟estimation_window等于 1 的观察值。

然后,我希望将三列添加回我的初始数据帧:一列包含预测值,一列包含每个回归的 beta(x 系数(,另一列包含每个回归的截距。应为所有观测值计算这些值,而不仅仅是虚拟estimation_window等于 1 的观测值。

生成的数据集应如下所示:

estimation_window    group_id         y            x        predicted_val    beta_coeff  alpha_coeff
0                       1             3.17         23           3.10            0.32         1.43        
1                       1             4.76         26           4.00            0.32         1.43
1                       2             4.17         73           4.10            0.75         0.95
1                       2             8.70         72           8.50            0.75         0.95
0                       2             11.45        16           10.30           0.75         0.95

我尝试使用统计模型,但无法弄清楚。

假设你有数据帧:

>>> data
estimation_window  group_id      y     x
0                  0         1   3.17  23.0
1                  1         1   4.76  26.0
2                  1         2   4.17  73.0
3                  1         2   8.70  72.0
4                  0         2  11.45  16.0

然后您可以按group_id分组,并逐个进行线性回归并保存参数。如果您使用的是statsmodels,您可以执行以下操作:

for groupid, grp in data.groupby('group_id'):
print(groupid)
model = sm.OLS(grp['y'], sm.add_constant(grp['x'])).fit()
data.loc[data['group_id'].eq(groupid), 'alpha'] = model.params['const']
data.loc[data['group_id'].eq(groupid), 'beta'] = model.params['x']

然后,您可以手动重新计算预测值(只是因为线性模型很简单(:

data['predicted_val'] = data['x'] * data['beta'] + data['alpha']

结果你得到了这个:

estimation_window  group_id      y     x      alpha      beta  predicted_val
0                  0         1   3.17  23.0  -9.020000  0.530000       3.170000
1                  1         1   4.76  26.0  -9.020000  0.530000       4.760000
2                  1         2   4.17  73.0  12.926162 -0.089804       6.370451
3                  1         2   8.70  72.0  12.926162 -0.089804       6.460255
4                  0         2  11.45  16.0  12.926162 -0.089804      11.489294

最新更新