hdfs map reduce实际上是如何在完全分布式模式下工作的

实际上，我对hdfs-map-reduce如何在完全分布式模式下实际工作感到有点困惑。

假设我正在运行一个单词计数程序。我只给出"hdfs站点"的路径&amp核心站点"。

那么事情到底是如何进行的呢？

这个程序是否分布在每个节点上？

是的，您的程序是分布式的。但如果说它分布在每个节点，那就错了。更重要的是，hadoop检查您正在处理的数据，将这些数据拆分成更小的部分（在配置的一些约束下），然后将代码移动到hdfs中这些部分所在的节点（我假设，您有一个数据节点和一个任务跟踪器在这些节点上运行）。首先，在这些节点上执行地图部分，从而生成一些数据。这些数据存储在节点上，在映射完成期间，作业的第二部分从节点开始，即减少阶段。

减速器在一些节点上启动（同样，您可以配置它们的数量），并从映射器中获取数据，聚合它们并将输出发送到hdfs。

相关内容

最新更新

热门标签：