我试图了解Map Reduce的一般工作原理。因此,我所知道的是,有些映射器在多台计算机上并行运行并创建一个结果集,然后由在多台计算机上并行运行的Reducers使用该结果集来创建预期的数据集。
我的问题是:
-
一个作业是否在固定数量的文件上运行?所以,在开始时一个作业,需要处理的文件数量固定处理并生成一些数据。
-
如果不是,那么我们如何处理可能来自不同来源的数据流推特提要等?
-
如果是,请解释地图缩减如何找到当所有映射器完成并且减少任务时,应开始是因为可能没有参考点。
答案:
-
是的。基本上,作业开始,处理文件并结束。没有永远的运行。
-
流处理可以由 Storm 或类似工具处理技术,但不是Hadoop单独,因为它是一个批处理系统。您还可以了解Hadoop Yarn和Storm如何协同工作。
-
应该是一个参考点,因为任务跟踪器运行不同的节点发送正在运行的不同任务(映射任务/减少任务)的状态信息定期到作业跟踪器,该跟踪器协调作业运行。