如何复制 GridSearchCV 结果?

使用GridSearchCV，我尝试最大化AUCLogisticRegression Classifier

clf_log = LogisticRegression(C=1, random_state=0).fit(X_train, y_train)
from sklearn.model_selection import GridSearchCV
grid_params = {'penalty': ['l1','l2'], 'C': [0.001,0.01,0.1,1,10,100], 'max_iter' : [100]} 
gs = GridSearchCV(clf_log, grid_params, scoring='roc_auc', cv=5)
gs.fit(X_train, y_train)`

我分别gs.best_score_了gs.best_estimator_和gs.best_params_的0.7630647186779661，如下所示：

<< LogisticRegression(C=10, class_weight=None, dual=False, fit_intercept=True,
intercept_scaling=1, l1_ratio=None, max_iter=100,
multi_class='auto', n_jobs=None, penalty='l2',
random_state=0, solver='lbfgs', tol=0.0001, verbose=0,
warm_start=False) >>
{'C': 10, 'max_iter': 100, 'penalty': 'l2'}

然而，当我将这些参数重新引入我原来的clf_log时，我只得到了AUC0.5359918677005525。我错过了什么(我认为：简历部分(？如何获得和复制相同的结果？谢谢！

网格搜索 CV 使用 K 折交叉验证，即当您使用fit方法时，它将数据分为测试和训练集(cv=5 表示测试集是数据集的 1/5(，并且这样做了cv次(在本例中为 5(。所以你不应该使用X_train和y_train，而是使用X和y(假设你不需要第三个验证集(，因为拆分是在内部完成的。

gs.fit(X, y)

在此之后，假设您的最佳参数是{'C': 10, 'max_iter': 100, 'penalty': 'l2'}.现在假设你想应用这个。如果要复制 GridSearchCV 的输出，则需要再次使用 k 折交叉验证(如果使用train_test_split，则结果会略有不同(。

from sklearn.model_selection import cross_val_score
np.average(cross_val_score(LogisticRegression(C=10, max_iter=100, penalty='l2'), X, y, scoring='roc_auc', cv=10))

有了这个，您应该获得相同的AUC。您可以参考此视频

相关内容

最新更新

热门标签：