我试图理解Ridge回归是如何在scikit-learn Ridge中实现的
岭回归具有最小化(y - Xw)^2 + alpha * |w|^2的封闭形式解,即(X'*X + alpha * I)^{-1} X'y
拟合模型的截距和系数似乎与封闭形式解不相同。你知道脊回归是如何在scikit-learn中实现的吗?
from sklearn import datasets
from sklearn.linear_model import Ridge
import matplotlib.pyplot as plt
import numpy as np
# prepare dataset
boston = datasets.load_boston()
X = boston.data
y = boston.target
# add the w_0 intercept where the corresponding x_0 = 1
Xp = np.concatenate([np.ones((X.shape[0], 1)), X], axis=1)
alpha = 0.5
ridge = Ridge(fit_intercept=True, alpha=alpha)
ridge.fit(X, y)
# 1. intercept and coef of the fit model
print np.array([ridge.intercept_] + list(ridge.coef_))
# output:
# array([ 3.34288615e+01, -1.04941233e-01, 4.70136803e-02,
2.52527006e-03, 2.61395134e+00, -1.34372897e+01,
3.83587282e+00, -3.09303986e-03, -1.41150803e+00,
2.95533512e-01, -1.26816221e-02, -9.05375752e-01,
9.61814775e-03, -5.30553855e-01])
# 2. the closed form solution
print np.linalg.inv(Xp.T.dot(Xp) + alpha * np.eye(Xp.shape[1])).dot(Xp.T).dot(y)
# output:
# array([ 2.17772079e+01, -1.00258044e-01, 4.76559911e-02,
-6.63573226e-04, 2.68040479e+00, -9.55123875e+00,
4.55214996e+00, -4.67446118e-03, -1.25507957e+00,
2.52066137e-01, -1.15766049e-02, -7.26125030e-01,
1.14804636e-02, -4.92130481e-01])
棘手的是拦截。您拥有的封闭形式解决方案是缺乏截距,当您向数据添加1列时,您还将L2惩罚添加到截距项上。Scikit-learn岭回归则不然。
如果你想在偏置上有L2惩罚,那么只需在Xp
上调用ridge(并在构造函数中关闭拟合偏置),你就会得到:
>>> ridge = Ridge(fit_intercept=False, alpha=alpha)
>>> ridge.fit(Xp, y)
>>> print np.array(list(ridge.coef_))
[ 2.17772079e+01 -1.00258044e-01 4.76559911e-02 -6.63573226e-04
2.68040479e+00 -9.55123875e+00 4.55214996e+00 -4.67446118e-03
-1.25507957e+00 2.52066137e-01 -1.15766049e-02 -7.26125030e-01
1.14804636e-02 -4.92130481e-01]
你是正确的,解析解是
(X' X + α我)<一口> 1> 一口>
但问题是什么是X和y。实际上有两种不同的解释:在您的分析计算中,您实际上使用Xp,其中在X(用于截距)之前添加了一列1s,并使用原始的y。
在sklearn中,解释是不同的。首先,通过减去其平均值(即截距)对yn进行归一化。然后,对X和yn进行计算。
很明显为什么你认为你的解释是正确的,因为在OLS中没有区别。但是,当您添加Ridge惩罚时,您的解释也会惩罚第一列的系数,这没有多大意义。
如果您执行以下操作
alpha = 0.5
ridge = Ridge(fit_intercept=True, alpha=alpha)
ridge.fit(X, y - np.mean(y))
# 1. intercept and coef of the fit model
print np.array([ridge.intercept_] + list(ridge.coef_))
Xp = Xp - np.mean(Xp, axis=0)
# 2. the closed form solution
print np.linalg.inv(Xp.T.dot(Xp) + alpha * np.eye(Xp.shape[1])).dot(Xp.T).dot(y)