sklearn:在 RandomizedSearchCV 中使用 Pipeline



>我希望能够在sklearn的RandomizedSearchCV结构中使用管道。但是现在我相信只支持估计器。以下是我希望能够执行的操作的示例:

import numpy as np
from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline
# get some data
iris = load_digits()
X, y = iris.data, iris.target
# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}
# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)
# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)
print search.grid_scores_

如果只是这样运行,则会收到以下错误:

ValueError: Invalid parameter kernel for estimator Pipeline

在 sklearn 中有什么好方法可以做到这一点吗?

RandomizedSearchCV以及

GridSearchCV都支持流水线(实际上,它们独立于它们的实现,并且流水线被设计为等同于通常的分类器)。

如果您认为应该搜索哪些参数,那么问题的关键非常简单。由于管道由许多对象(多个转换器 + 一个分类器)组成,因此可能需要为分类器和转换器找到最佳参数。因此,您需要以某种方式区分从/到哪里获取/设置属性。

所以你需要做的是说,你不仅要找到一些抽象gamma(管道根本没有),还要找到管道分类器gamma的值,在你的例子中rbf_svm调用(这也证明了对名称的需求)。这可以使用双下划线语法来实现,该语法广泛用于嵌套模型的 sklearn 中:

param_dist = {
          'rbf_svm__C': [1, 10, 100, 1000], 
          'rbf_svm__gamma': [0.001, 0.0001], 
          'rbf_svm__kernel': ['rbf', 'linear'],
}

我认为这就是你需要的(第 3 节)。

pipeline.get_params().keys() -> 确保您的参数网格键与此返回的键匹配。

相关内容

  • 没有找到相关文章

最新更新