如何获得PLS回归的截距(Sklearn)

使用Sklearn的PLS回归给出了非常差的预测结果。当我获得模型时，我找不到找到"拦截"的方法。也许这会影响模型的预测？分数和负载的矩阵很好。系数的排列也是如此。无论如何，如何使用已经获得的属性获得截距？

此代码抛出变量的系数。

from pandas import DataFrame
from sklearn.cross_decomposition import PLSRegression
X = DataFrame( {
        'x1': [0.0,1.0,2.0,2.0],
        'x2': [0.0,0.0,2.0,5.0],
        'x3': [1.0,0.0,2.0,4.0],
    }, columns = ['x1', 'x2', 'x3'] )
Y = DataFrame({
        'y': [ -0.2, 1.1, 5.9, 12.3 ],
    }, columns = ['y'] )
def regPLS1(X,Y):
    _COMPS_ = len(X.columns) # all latent variables
    model = PLSRegression(_COMPS_).fit( X, Y )
    return model.coef_

结果是：

regPLS1(X,Y)
>>> array([[ 0.84], [ 2.44], [-0.46]])

除了这些系数外，截距的值是：0.26。我在做什么错？

编辑正确的预测（评估）响应是y_hat（观察到的y完全相同）：

Y_hat = [-0.2  1.1  5.9 12.3]

计算截距使用以下内容：

plsModel = PLSRegression(_COMPS_).fit( X, Y )
y_intercept = plsModel.y_mean_ - numpy.dot(plsModel.x_mean_ , plsModel.coef_)

我直接从r" pls"软件包获得了公式：

 BInt[1,,i] <- object$Ymeans - object$Xmeans %*% B[,,i]

我测试了结果，并计算了r'pls'和scikit-learn中的相同截距。

基于我对_PLS实现的读取公式为 Y = XB + Err，其中 model.coef_是 B的估计值。如果您查看predict方法，它看起来将使用拟合参数y_mean_作为Err，因此我相信这就是您想要的。使用model.y_mean_代替model.coef_。希望这会有所帮助！

相关内容

最新更新

热门标签：