训练、验证和测试集的最佳分割



我最初认为分割训练、验证和测试数据的好经验法则是60-20-20。然而,这里的首要答案似乎是建议在训练和测试中使用80:20,然后将80%中的20%用于验证数据(相当于使用Keras的model.fit((将验证分割为0.2(。然而,在这种情况下,这不是60-20-20——这里测试数据的大小显然大于验证数据的大小。

例如,如果总共有100个样本,并且80%用于训练,那么剩下80个样本用于训练,另外20%用于用20个样本进行测试。

如果你拿了80%中的20%,那么你就拿了80%的20%,也就是16。总的来说,这意味着培训、验证和测试的总体比例分别为64%-16%-20%。

这仍然是正确的/好的/经验法则吗?或者我应该从80%中提取20%进行测试——在这种情况下,我提取25%的训练数据,将20个样本分配到验证集,现在我有60-20-20个样本?

对于任何更合适/标准的做法,为什么会这样?有标准的、传统的选择吗?

一切的最终目标都是提高模型精度。。。分裂取决于你有多少个实例。。。如果你能够用你的分裂方式获得更好的准确性,那么你可以使用它,但它不会带来剧烈的变化。。。!主要取决于您正在处理的数据类型、数据的大小或实例的数量。

相关内容

  • 没有找到相关文章

最新更新