training_test拆分后引导还是原始数据集



我的数据集包含1000个集合,我正在将其用于分类问题。我使用LR和SVM作为机器学习算法。我想知道我是否应该使用训练集中的Bootstrapping,然后应用LR&SVM还是使用原始数据集的Bootstrapping?当我查看准确度分数时,我不应该使用来自原始数据集的自举。

从原始数据集启动无法实现拥有两个不同数据集(训练/测试(的目的。您总是在训练数据集上训练模型,并在测试数据集上计算准确性或其他分数。

如果您从原始数据集引导,您将在整个数据集(的一个子集(上训练您的模型,该数据集将包括测试数据集的一部分,因此您的结果指标(您将基于测试数据集计算(将有偏差,因为您在测试数据集的部分上训练了模型。

最新更新