我遇到一种情况,即文件的整个块位于一台机器上,默认复制因子为 1。
在这种情况下,如果我在集群上启动 hadoop,我觉得我的所有映射任务都只能在一台机器上运行,因为块只存在于该机器上。对吗?本地映射器任务执行是约束还是优先级?
如果是,是否可以通过将块复制到其本地磁盘来配置映射器任务也可以在其他机器上运行。
第二个问题是,即使映射器任务只在一台机器上运行,通过复制映射器的中间数据在所有其他机器中启动化简器是否正确?
数据本地执行只是一个优先级,而不是一个约束。如果其他节点上有空闲插槽,Hadoop将生成非本地映射器。您甚至可以为同时运行的相同数据块启动更多映射器 - 这称为推测执行 - 并且首先完成的任务获胜,其他任务被杀死。
至于化简器 - 它们在称为随机播放的阶段通过网络复制地图输出数据。
框架尽最大努力使处理尽可能本地化。但在某些情况下,这可能不会随之而来。一个显然是插槽不可用。另一种情况可能是,当您的 InputSplit 跨越 1 个以上的块并且每个块驻留在不同的计算机上时。在这种情况下,InputSplit 的另一部分将被移动到启动此 InputSplit 的映射器的节点,以便整个块由 1 个映射器处理。
本地映射器任务执行是约束还是优先级?
这不是一个约束。这只是为了让事情更有效率。否则,将大数据从这里移动到那里以处理它的效率会非常低。这是Hadoop的基本原则之一。
如果是,是否可以通过将块复制到其本地磁盘来配置映射器任务也可以在其他机器上运行。
你为什么要这样做?如果您确实想在同一块的多个副本上运行 Mappers,您可以将推理执行切换到 true,而不是将块从一个位置复制到另一个位置。这将在多台机器上的同一块上运行多个映射器,您将通过最快的映射器获得输出。
第二个问题是,即使映射器任务只在一台机器上运行,通过复制映射器的中间数据在所有其他机器中启动化简器是否正确?
化简器可以在任何具有空闲插槽的节点上启动。不过,并非所有机器都必然如此。