Scikit-learn:我们如何为网格搜索定义距离度量的参数



我有以下代码段,该代码段尝试进行网格搜索,其中一个网格参数是用于KNN算法的距离指标。如果我使用" wminkowski"," seuclidean"或" mahalanobis"距离,则下面的示例失败了。

# Define the parameter values that should be searched
k_range    = range(1,31)
weights    = ['uniform' , 'distance']
algos      = ['auto', 'ball_tree', 'kd_tree', 'brute']
leaf_sizes = range(10, 60, 10)    
metrics = ["euclidean", "manhattan", "chebyshev", "minkowski", "mahalanobis"]
param_grid = dict(n_neighbors = list(k_range), weights = weights, algorithm = algos, leaf_size = list(leaf_sizes), metric=metrics)
param_grid
# Instantiate the algorithm
knn = KNeighborsClassifier(n_neighbors=10)
# Instantiate the grid
grid = GridSearchCV(knn, param_grid=param_grid, cv=10, scoring='accuracy', n_jobs=-1)
# Fit the models using the grid parameters
grid.fit(X,y)

我认为这是因为我必须设置或定义各种距离参数的范围(例如,p,w对于" wminkowski" -wminkowskidistance)。" Minkowski"距离可能起作用,因为其" P"参数具有默认值2。

所以我的问题是:

  1. 我们可以为网格搜索设置距离指标的参数范围,如果是这样?
  2. 我们可以为网格搜索的距离指标设置一个参数的值,如果是这样?

希望这个问题很清楚。tia

我终于在Scikit用户和开发人员邮件列表的帮助下得到了答案。我将在这里学到的东西放在这里,希望它也会对其他人有所帮助。

上面两个问题的答案是:是的。这是我从邮件列表中获得的示例代码:

params = [{'kernel':['poly'],'degree':[1,2,3],'gamma':[1/p,1,2],'coef0':[-1,0,1]},
          {'kernel':['rbf'],'gamma':[1/p,1,2]},
          {'kernel':['sigmoid'],'gamma':[1/p,1,2],'coef0':[-1,0,1]}]

要注意的两件事:

  1. 您可以列出一组参数,对于每个集合,您只能免费放置一组参数所需的内容。这意味着我们可以选择公制和相应的参数。参数是通过使用键命名的。

  2. 对于每个键,我们可以使用一个值列表 - 这些值的每个组合将通过网格搜索使用并传递到相应的度量函数。

这仍然给我们带来一个问题:我们如何将参数的组合传递给度量标准。注意:并非所有指标都可以由算法使用,因此您必须手动设置这些指标。

我现在显示我上面要求的示例:

{'metric': ['wminkowski'], 
                     'metric_params':[
                                {'w':np.array([2.0] * len(X.columns)),'p':1.0},   # L1
                                {'w':np.array([2.0] * len(X.columns)),'p':1.5},
                                {'w':np.array([2.0] * len(X.columns)),'p':2.0},   # L2
                                {'w':np.array([2.0] * len(X.columns)),'p':2.5},
                                {'w':np.array([2.0] * len(X.columns)),'p':3.5},
                                {'w':np.array([2.0] * len(X.columns)),'p':3.0}
                               ], 
                     'algorithm': ['brute', 'ball_tree'], 
                     'n_neighbors': list(k_range), 'weights': weights, 'leaf_size': list(leaf_sizes) } 

请注意以下内容:

  1. 'wminkowski'仅与['brute', 'ball_tree']算法一起使用。
  2. 我们必须使用'metric_params'中的字典列表才能列举所有可能的参数组合(我尚未找到自动化的方法)。
  3. 在上面的情况下,我被迫使用numpy数组,因为转换不是隐式进行的(否则我们会得到例外)

我任何人都知道这样做的更好的方法,请评论。

相关内容

  • 没有找到相关文章

最新更新