map reduce/hadoop在机器学习训练中的作用何在



Map reduce/hadoop非常适合从各种资源的成堆数据中收集见解,并以我们希望的方式组织它们。

但当谈到训练时,我的印象是,我们必须将所有的训练数据同时转储到算法中(无论是SVN、Logistic回归还是随机森林),这样算法才能得出一个拥有所有数据的模型。map reduce/hadoop能否在培训部分提供帮助?如果是,一般情况下如何?

是。有许多MapReduce实现,如hadoop流,甚至还有一些简单的工具,如Pig,可以用于学习。此外,还有基于Map/Reduce构建的分布式学习工具集,如vowpal-wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。这种方法的大思想是对小部分数据进行训练(由HDFS分割),然后对模型进行平均并与每个节点进行交换。因此,模型直接从基于部分数据构建的子模型中获得更新。

相关内容

  • 没有找到相关文章

最新更新