我有一个大数据集(>1 TB(,我希望使用Scikit Learn的GradientBoostingRegressor进行训练。
由于数据的大小远远超出了我的RAM容量,我正在考虑将数据分割成块,并依次"fit(("它们。
我知道将"warm_start"属性设置为True会保持fit((之后的权重。然而,对于fit((的每次连续调用,我似乎也需要增加估计器的数量。
在将估计器的数量增加一之前,是否可以先拟合((所有数据块?
我的问题最好的解决方案是什么,即拟合一个超大的数据集?
您可能想要尝试SGD估计器的partial_fit
方法。它不是GBM,但它工作得很好,就你所拥有的数据大小而言,通过线性模型和适当的交互,你可能会得到很好的结果。