hdfs map reduce实际上是如何在完全分布式模式下工作的



实际上,我对hdfs-map-reduce如何在完全分布式模式下实际工作感到有点困惑。

假设我正在运行一个单词计数程序。我只给出"hdfs站点"的路径&amp核心站点"。

那么事情到底是如何进行的呢?

这个程序是否分布在每个节点上?

是的,您的程序是分布式的。但如果说它分布在每个节点,那就错了。更重要的是,hadoop检查您正在处理的数据,将这些数据拆分成更小的部分(在配置的一些约束下),然后将代码移动到hdfs中这些部分所在的节点(我假设,您有一个数据节点和一个任务跟踪器在这些节点上运行)。首先,在这些节点上执行地图部分,从而生成一些数据。这些数据存储在节点上,在映射完成期间,作业的第二部分从节点开始,即减少阶段。

减速器在一些节点上启动(同样,您可以配置它们的数量),并从映射器中获取数据,聚合它们并将输出发送到hdfs。

最新更新