不确定这是否是这个问题的好地方,但我被告知CrossValidated不是。所以,所有这些问题都与sklearn有关,但如果你对逻辑回归有一般的了解,我也很想听听。
1)数据必须标准化(平均值为0,标准为1)吗?
2)在sklearn中,我如何指定我想要什么样的正则化(L1 vs L2)?注意,这与惩罚不同;惩罚是指分类错误,而不是对系数的惩罚。
3)如何使用变量选择?例如,类似于线性回归的套索。
4)当使用正则化时,我如何优化C,正则化强度?这是内置的吗,还是我必须自己处理?
也许举个例子会很有帮助,但我希望你能对这些问题有深刻的见解。
这就是我的出发点:http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
提前非常感谢!
1)对于逻辑回归,没有。您没有计算实例之间的距离。
2)可指定penalty='l1'
或penalty='l2'
参数。请参阅LogisticRegression页面。L2惩罚是默认的。
3) scikit-learn提供了各种显式的特征选择技术,例如使用SelectKBest和chi2排序函数。
4)你会想要做一个网格搜索来寻找最优参数。
关于所有这些问题的更多细节,我建议通过一些例子,例如this one和this one。