我仍然对数据验证工作流感到困惑。据我所知,当我得到一个数据集时,我使用train_test_split
将数据分为两部分,训练集和测试集。然后,我对训练集执行cross_val_score
或cross_val_predict
,用于模型选择和超参数调整。然后,我在测试集上执行选定的模型,以查看模型的性能。我的理解正确吗?或者我可以在不使用train_test_split
的情况下对整个数据集执行cross_val_score
和cross_val_predict
是的,可以使用cross_val_score/cross_val_prdict进行模型选择和参数调整。它还可以让你选择你想评判模型的指标。所以你基本上是在交叉验证结果后选择你的模型和参数,看看它是否能很好地与测试数据和真实世界的数据相结合。