在
大量数据上有一个hadoop映射红色作业。映射阶段需要很长时间才能完成(~2-3 天)。它完成了。
但是任务在减少阶段失败了~92%。是否可以检索成功的映射任务执行的输出/计算,以便只需要重新运行reduce阶段?
运行Hadoop 1.2.1,Java7,单节点Linux系统。
不,这是不可能的。如果映射器的逻辑是计算密集型的(而不是 IO 繁重的),则可以使用 MultithreadedMapper 进行多线程处理,也可以尝试将作业拆分为两个作业。然后,第二个作业将只"映射"运行时间较长的上一个作业的输出。