Python LASSO 非零系数的最大数量

我有一个相当大的数据集，其中包括100多个系数和数千个条目。因此，我想使用套索方法进行模型训练。

我目前正在研究以下科学工具包文档：

套索
套索简历

尽管实现看起来很简单，但我无法找到允许限制非零系数最大数量的输入参数，例如 10。

更清楚的是，在Lasso的MatLab实现中，参数"DFMax"允许上述操作。

在任何 Python 实现中都有这样的选项吗？

直接限制非零系数的数量是一个NP难题，这是LASSO的美妙之处之一，它渐近地解决了这个NP难题。

我不知道DFMax在Matlab中的实现，但我的建议是执行以下操作：

使用 LassoCV 查找最佳 alpha 值。
如果非零系数的数量小于您的限制，请取此 alpha 值。
大于您的限制，请使用套索和以套索CV的alpha作为最小值的递增alpha列表，并在非零系数的数量等于或低于阈值时停止。

我不认为接受的答案是最好的。下面是查找一定数量的套索系数的示例。

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from scipy.optimize import differential_evolution
X, y = make_classification(n_samples=2000, n_features=50, n_informative=10, random_state=10)
logit = LogisticRegression(penalty='l1', C=1.0)
target = 10
def func(C):
    logit = LogisticRegression(penalty='l1', C=C[0], solver='liblinear')
    logit.fit(X, y)
    n_nonzero = np.sum(logit.coef_ != 0)
    return (target-n_nonzero)**2
differential_evolution(func, bounds=[(0, 2)], tol=0.1, maxiter=20)

     fun: 0.0
 message: 'Optimization terminated successfully.'
    nfev: 212
     nit: 13
 success: True
       x: array([0.03048243])

logit = LogisticRegression(penalty='l1', C=0.03048243, solver='liblinear')
logit.fit(X, y)
np.sum(logit.coef_ != 0)

我们已经找到了最优正则化参数，以便正好有 10 个非零系数。

相关内容

最新更新

热门标签：