如何检索失败的hadoop归约任务,使用成功的地图计算



大量数据上有一个hadoop映射红色作业。映射阶段需要很长时间才能完成(~2-3 天)。它完成了。

但是任务在减少阶段失败了~92%。是否可以检索成功的映射任务执行的输出/计算,以便只需要重新运行reduce阶段?

运行Hadoop 1.2.1,Java7,单节点Linux系统。

不,这是不可能的。如果映射器的逻辑是计算密集型的(而不是 IO 繁重的),则可以使用 MultithreadedMapper 进行多线程处理,也可以尝试将作业拆分为两个作业。然后,第二个作业将只"映射"运行时间较长的上一个作业的输出。

最新更新