我有很多数据,我想通过拆分数据并拟合在多个线程或多台机器中运行的多个估计器来并行化估计器拟合。
一些估计器为核心外学习(例如这里的PassiveAggressiveClassifier
)提供部分比特API
有可能让多个估计量部分拟合,然后将它们的个别拟合组合成一个估计量吗?
不使用标准API。你可以对coef_
和intercept_
取平均值,这将产生一个有意义的估计器。您想在一个核心上还是在一个网络上进行并行化?可能会有更有效的选择,其中大多数都需要更多的工作。有SGD的并行实现,但这些可能只会为巨大的数据集付出代价。您的数据有多大(样本数量、特征数量、稀疏性)?