GridSearchCV, Data Leaks & Production Process Clarity



我读过一些关于在不冒数据泄露风险的情况下将缩放与交叉验证和超参数调整集成在一起的文章。据我所知,我找到的最有意义的解决方案包括创建一个包含标量和GridSeachCV的管道,用于网格搜索和交叉验证。我还读到,即使在使用交叉验证时,在一开始就创建一个保持测试集,用于在超参数调整后对模型进行额外的最终评估也是有用的。把这些放在一起看起来是这样的:

# train, test, split, unscaled data to create a final test set
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)
# instantiate pipeline with scaler and model, so that each training set
# in each fold is fit to the scalar and each training/test set in each fold 
# is respectively transformed by fit scalar, preventing data leaks between each test/train
pipe = Pipeline([('sc', StandardScaler()),  
('knn', KNeighborsClassifier())
])
# define hypterparameters to search
params = {'knn_n_neighbors': [3, 5, 7, 11]}
# create grid
search = GridSearchCV(estimator=pipe, 
param_grid=params, 
cv=5, 
return_train_Score=True)

search.fit(X_train, y_train)

假设我的理解和上述过程是正确的,我的问题是接下来会发生什么?

我的猜测是我们:

  1. 将X_train拟合到我们的缩放器
  2. 用我们的定标器变换X_train和X_test
  3. 使用X_train和我们从网格搜索过程中新发现的最佳参数来训练一个新模型
  4. 用我们的第一个持久测试集测试新模型

据推测,因为Gridsearch评估的模型基于不同的数据切片进行缩放,所以缩放我们的最终、整个训练和测试数据的值的差异应该很小。

最后,当需要通过我们的生产模型处理全新的数据点时,这些数据点是否需要根据与原始X_train的标量拟合进行转换?

谢谢你的帮助。我希望我没有完全误解这个过程的基本方面。

奖金问题:我已经从许多来源看到了类似上面的示例代码。流水线如何知道将标量拟合到交叉折叠的训练数据,然后转换训练和测试数据?通常我们必须定义这个过程:

# define the scaler
scaler = MinMaxScaler()
# fit on the training dataset
scaler.fit(X_train)
# scale the training dataset
X_train = scaler.transform(X_train)
# scale the test dataset
X_test = scaler.transform(X_test)

GridSearchCV将帮助您根据管道和数据集找到最佳的超参数集。为了做到这一点,它将使用交叉验证(在您的情况下,将您的火车数据集拆分为5个相等的子集(。这意味着您的best_estimator将在80%的训练集上进行训练。

正如你所知,一个模型看到的数据越多,它的结果就越好。因此,一旦你有了最优的超参数,明智的做法是重新训练所有训练集上的最佳估计器,并用测试集评估其性能。

您可以通过指定Gridsearch的参数refit=True,使用整个训练集重新训练最佳估计器,然后在best_estimator上对您的模型进行如下评分:

search = GridSearchCV(estimator=pipe, 
param_grid=params, 
cv=5,
return_train_Score=True,
refit=True)

search.fit(X_train, y_train)
tuned_pipe = search.best_estimator_
tuned_pipe.score(X_test, y_test)

相关内容

  • 没有找到相关文章

最新更新