请参阅以下地址的笔记本
物流回归
这部分代码,
scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10)
print scores
print scores.mean()
在窗口7 64位机器中生成以下错误
---------------------------------------------------------------------------
IndexError Traceback (most recent call last)
<ipython-input-37-4a10affe67c7> in <module>()
1 # evaluate the model using 10-fold cross-validation
----> 2 scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10)
3 print scores
4 print scores.mean()
C:Python27libsite-packagessklearncross_validation.pyc in cross_val_score(estimator, X, y, scoring, cv, n_jobs, verbose, fit_params, score_func, pre_dispatch)
1140 allow_nans=True, allow_nd=True)
1141
-> 1142 cv = _check_cv(cv, X, y, classifier=is_classifier(estimator))
1143 scorer = check_scoring(estimator, score_func=score_func, scoring=scoring)
1144 # We clone the estimator to make sure that all the folds are
C:Python27libsite-packagessklearncross_validation.pyc in _check_cv(cv, X, y, classifier, warn_mask)
1366 if classifier:
1367 if type_of_target(y) in ['binary', 'multiclass']:
-> 1368 cv = StratifiedKFold(y, cv, indices=needs_indices)
1369 else:
1370 cv = KFold(_num_samples(y), cv, indices=needs_indices)
C:Python27libsite-packagessklearncross_validation.pyc in __init__(self, y, n_folds, indices, shuffle, random_state)
428 for test_fold_idx, per_label_splits in enumerate(zip(*per_label_cvs)):
429 for label, (_, test_split) in zip(unique_labels, per_label_splits):
--> 430 label_test_folds = test_folds[y == label]
431 # the test split can be too big because we used
432 # KFold(max(c, self.n_folds), self.n_folds) instead of
IndexError: too many indices for array
我使用的是scikit.learn 0.15.2,这里建议这可能是windows 7、64位机器的特定问题。
================更新=============
我发现以下代码实际上可以
from sklearn.cross_validation import KFold
cv = KFold(X.shape[0], 10, shuffle=True, random_state=33)
scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=cv)
print scores
================更新2=============
这似乎是由于一些软件包更新,我无法再在我的机器上复制这样的错误。如果您在Windows7 64位机器上遇到同样的问题,请告诉我。
当我发现这个问题时,我遇到了和你一样的错误,正在寻找答案。
我使用了相同的sklearn.cross_validation.cross_val_score(除了不同的算法)和相同的机器窗口7,64位。
我从上面尝试了你的解决方案,它"有效",但它给了我以下警告:
C: \Users\E245713\AppData\Local\Continum\Anaconda3\lib\site packages\sklearn\cross_validation.py:1531:DataConversionWarning:当需要1d数组时,传递了列向量y。请将y的形状更改为(n_samples,),例如使用ravel()。估计器.fit(X_train,y_train,**fit_params)
看完警告后,我发现问题与"y"(我的标签栏)的形状有关。要从警告中尝试的关键字是"ravel()"。所以,我尝试了以下方法:
y_arr = pd.DataFrame.as_matrix(label)
print(y_arr)
print(y_arr.shape())
这给了我
[[1]
[0]
[1]
..,
[0]
[0]
[1]]
(87939, 1)
当我添加"ravel()"时:
y_arr = pd.DataFrame.as_matrix(label).ravel()
print(y_arr)
print(y_arr.shape())
它给了我:
[1 0 1 ..., 0 0 1]
(87939,)
"y_arr"的维度必须是(87939,)的形式,而不是(87939,1)。在那之后,我最初的cross_val_score在没有添加Kfold代码的情况下工作。
希望这能有所帮助。
我知道答案迟了
但这个答案可能会帮助其他在同样错误中挣扎的人。我对python 3.6也有同样的问题从3.6更改为3.5后,我就可以使用该功能了
下面是我运行的示例:
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10, n_jobs = -1)
首先创建3.5版本的conda-env。
conda create -n py35 python=3.5
source activate py35
希望这将有助于推进
导入此模块,它应该可以工作:
from sklearn.model_selection import cross_val_score