减速机需要什么?



为什么Map和Reducer是分开的?为什么不能在Mapper阶段完成所有事情。

分离这些任务的好处是什么?不是在mapper阶段或reducer阶段做所有事情的缺点是什么?

由于数据太大,无法移动到单个机器中进行计算,因此我们使用分布式系统来完成这项工作。在这种情况下,每台计算机本地处理数据片,之后,我们需要以某种方式从每台计算机收集所有数据并重新构建一个"完整"的新文件。

通常单个MapReduce作业不能完成工作。您必须执行多个MapReduce作业才能完成工作。

Map阶段是在本地处理数据,reduce阶段是从所有计算机中获取所有中间结果,并将它们连接在一起形成一个新的"完整文件"。

有时映射足够,有时不够。如果必须从数据中提取一些字段,Map就足够了。如果要对文件进行排序,Map是不够的。

范式是:本地处理(MAP),然后将所有中间结果合并/连接到一个新的"整个文件"(REDUCE)。

相关内容

  • 没有找到相关文章

最新更新