地图减少中的大数据文件处理



我试图了解Map Reduce的一般工作原理。因此,我所知道的是,有些映射器在多台计算机上并行运行并创建一个结果集,然后由在多台计算机上并行运行的Reducers使用该结果集来创建预期的数据集。

我的问题是:

  • 一个作业是否在固定数量的文件上运行?所以,在开始时一个作业,需要处理的文件数量固定处理并生成一些数据。

  • 如果不是,那么我们如何处理可能来自不同来源的数据流推特提要等?

  • 如果是,请解释地图缩减如何找到当所有映射器完成并且减少任务时,应开始是因为可能没有参考点。

答案:

  1. 是的。基本上,作业开始,处理文件并结束。没有永远的运行。

  2. 流处理可以由 Storm 或类似工具处理技术,但不是Hadoop单独,因为它是一个批处理系统。您还可以了解Hadoop Yarn和Storm如何协同工作。

  3. 应该是一个参考点,因为任务跟踪器运行不同的节点发送正在运行的不同任务(映射任务/减少任务)的状态信息定期到作业跟踪器,该跟踪器协调作业运行。

相关内容

  • 没有找到相关文章

最新更新