scikit学习中的测试集分区



在"plot_gmm_classifier.py"中http://scikit-learn.org/stable/auto_examples/mixture/plot_gmm_classifier.html,训练和测试数据定义如下。

skf = StratifiedKFold(iris.target, n_folds=4)
# Only take the first fold.
train_index, test_index = next(iter(skf))
X_train = iris.data[train_index]
y_train = iris.target[train_index]
X_test = iris.data[test_index]
y_test = iris.target[test_index]

我突然想到y_test=iris.target[test_index]中的测试数据有标签。如果是这样,为什么?我们不应该给测试数据贴标签。如果不是这样,这里还会发生什么?

在这个特定的例子中,使用测试数据标签是为了评估方法的准确性(通过将预测的测试标签与真实的测试标签进行比较),并在图上绘制真实标签。

相关内容

  • 没有找到相关文章

最新更新