使用 sklearn 和 random forest 显示过拟合

我遵循本教程创建了一个简单的图像分类脚本：

https://blog.hyperiondev.com/index.php/2019/02/18/machine-learning/

train_data = scipy.io.loadmat('extra_32x32.mat')
# extract the images and labels from the dictionary object
X = train_data['X']
y = train_data['y']
X = X.reshape(X.shape[0]*X.shape[1]*X.shape[2],X.shape[3]).T
y = y.reshape(y.shape[0],)
X, y = shuffle(X, y, random_state=42)
....
clf = RandomForestClassifier()
print(clf)
start_time = time.time()
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
max_depth=None, max_features='auto', max_leaf_nodes=None,
min_impurity_split=1e-07, min_samples_leaf=1,
min_samples_split=2, min_weight_fraction_leaf=0.0,
n_estimators=10, n_jobs=1, oob_score=False, random_state=None,
verbose=0, warm_start=False)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
clf.fit(X_train, y_train)
preds = clf.predict(X_test)
print("Accuracy:", accuracy_score(y_test,preds))

它给了我大约0.7的准确度。

有没有什么方法可以可视化或显示模型在哪里/何时/是否过度拟合？我相信这可以通过训练模型来证明，直到我们看到训练的准确性在提高，验证数据在减少。但是我如何在代码中做到这一点呢？

有多种方法可以测试过拟合和欠拟合。如果你想具体查看训练和测试成绩并进行比较，你可以使用sklearns cross_validate[https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html#sklearn.model_selection.cross_validate]。如果你阅读了文档，它会给你一本字典，里面有训练分数(如果以train_score=True的形式提供(和你提供的指标中的测试分数。

样本代码

model=RandomForestClassifier(n_assessments=1000，random_state=1，criteria="ntropy"，bootstrap=True，oob_score=True，verbose=1(cv_dict=cross_validate(型号，X，y，return_train_score=True(

你也可以简单地创建一个带有训练-测试分割的保留测试集，并使用测试数据集比较你的训练和测试成绩。

另一个选项是使用像Optuna这样的库，它将为您测试各种超参数，您可以使用上面提到的方法。

相关内容

最新更新

热门标签：