在scikit learn中运行k最近邻时,当我将k设置为21时,我得到值错误。 但是当我将 k 设置为 k=np.arange(20) +1
时,我没有收到错误,那么这两者有什么区别呢?
k = np.arange(21)
parameters = {'n_neighbors': k}
knn = sklearn.neighbors.KNeighborsClassifier()
clf = sklearn.grid_search.GridSearchCV(knn, parameters, cv=10)
clf.fit(X_train, Y_train)
ValueError: Invalid shape in axis 1: 0.
也可以有人解释一下什么是
a = clf.grid_scores_
scores = [b.cv_validation_scores for b in a]
输出分数如下:
array([ 1. , 0.90909091, 1. , 0.72727273, 0.9 ,
1. , 1. , 1. , 1. , 0.88888889]),
分类器的准确性clf.grid_scores_
,但这cv_validation
分数是多少?
GridSearchCV
需要搜索的每个参数的值列表。如果只想为搜索设置一个值,请将其放入列表中:
parameters = {'n_neighbors': [21]} # ok
parameters = {'n_neighbors': np.range(21)} # error, the first value is 0
parameters = {'n_neighbors': np.range(21) + 1} # ok
请注意,该列表中的每个值都应该是该参数的有效值。例如,使用 np.range(p)
作为n_neighbors
的参数列表是错误的,因为它具有0
对于邻居数是无效的值。
根据文件,
cv_validation_scores
[是] 每个折叠的分数列表
因此grid_scores_
必须是相应cv_validation_scores
的平均值。