小贝子编程

地图减少中的大数据文件处理

本文关键字：数据文件处理地图 hadoop mapreduce bigdata
更新时间 : 2023-08-29
英文 : Big Data File Processing in Map Reduce

我试图了解Map Reduce的一般工作原理。因此，我所知道的是，有些映射器在多台计算机上并行运行并创建一个结果集，然后由在多台计算机上并行运行的Reducers使用该结果集来创建预期的数据集。

我的问题是：

一个作业是否在固定数量的文件上运行？所以，在开始时一个作业，需要处理的文件数量固定处理并生成一些数据。
如果不是，那么我们如何处理可能来自不同来源的数据流推特提要等？
如果是，请解释地图缩减如何找到当所有映射器完成并且减少任务时，应开始是因为可能没有参考点。

答案：

是的。基本上，作业开始，处理文件并结束。没有永远的运行。
流处理可以由 Storm 或类似工具处理技术，但不是Hadoop单独，因为它是一个批处理系统。您还可以了解Hadoop Yarn和Storm如何协同工作。
应该是一个参考点，因为任务跟踪器运行不同的节点发送正在运行的不同任务（映射任务/减少任务）的状态信息定期到作业跟踪器，该跟踪器协调作业运行。

相关内容

没有找到相关文章

最新更新