我们是否可以为Training和Testing提供单独的数据集。我正在做一个项目来获取有效的测试用例作为其中的一部分,我分析了bug数据库,并提出了产生bug的触发器,并得出了模型。所以这个bug数据库形成了我的训练集。我写的测试用例是我的测试数据,我必须将这些测试数据提供给模型,以判断测试用例是否有效。因此,在这种情况下,我不需要将数据集拆分为训练和测试数据,而是需要两个不同的数据集(来自bug数据库的测试数据(和训练数据(手动生成的测试用例(这是使用机器学习可以做到的吗?请告诉我。
是的,训练数据集和测试数据集可以是单独的文件。在现实世界中,测试数据通常是一些单独的、看不见的数据集。
要遵循的主要原则是,在训练模型时,数据集必须保持独立(保持集(以进行测试。这些数据可以在不同的文件、数据库中单独提供,甚至可以使用拆分生成。这样做是为了避免数据泄露(当测试数据以某种方式用于训练模型时(。