泰坦尼克号数据集过拟合:会有那么多吗

我有点困惑，因为我正在训练一个模型，该模型在训练数据上的CV得分约为88%，而同一模型在我提交测试数据后在测试数据上表现不佳(得分0.75(。精度下降12点不可能都是由于过度拟合，不是吗？有什么想法吗？你在你的模型/提交的材料中是否经历过这样的差距？

有关模型和结果，请参见随附的图像。

##########################################################

xgb_clf = XGBClassifier(n_estimators=87, learning_rate=0.05,max_depth = 10,
colsample_bytree =0.8 , n_jobs=-1 , random_state = 7,
scale_pos_weight = 0.6, min_child_weight = 0.9, gamma = 2.1)
skf = RepeatedStratifiedKFold(n_splits = 4)
results= cross_val_score(xgb_clf , X_train , y , cv =skf, scoring='roc_auc')
print("Accuracy: %.2f%% (%.2f%%)" % (results.mean()100, results.std()100))

准确度：88.13%(2.47%(

是的，这绝对可能表示过拟合。训练和测试的准确率相差12%并不罕见。事实上，在过拟合的极端情况下，您甚至可能在训练集上观察到100%的准确性，并且在测试数据的偶然水平上观察到准确性。

相关内容

最新更新

热门标签：