WEKA:我如何一次用一组新的观察值(批更新)来重新训练我的现有模型,而不是用java一次只训练一个实例



我有600万大小的数据集,我考虑500万作为列车数据集,100万作为测试数据集。

我想再次将训练集拆分为五百万个数据集。最初,我想用第一个一百万个数据集来构建我的模型,最重要的是,我想再用剩下的四组训练数据来重新训练我的模型。简单地说,我想以分段的方式训练我的模型,而不是一次给出整个训练数据集。有可能吗?如果可能的话,我必须使用什么API我如何使用weka库做到这一点?

以下是我想在代码中使用的API。

我将使用buildClassifier(Instances-intances)进行初始模型构建。那么,对于剩下的四组数据,我可以一次又一次地调用buildClassifier()吗?它是在重新训练我的模特吗?还是每次都用新的数据集构建新的模型?如果可能的话,我该如何编码?

如果buildClassifier()无法实现上述情况,我想使用updateClassifier,它一次只获取一个实例,但我不想以顺序的方式重新训练我的模型。我想在小批量模式下重新训练(一次给出一组实例)。我怎么能用weka做到这一点?或者是否有其他java API需要一组实例来更新weka库中的分类器?

buildClassifier构建一个新的分类器,它不会更新当前的分类器。

最新更新