如何防止reduce任务失败导致hadoop job失败



我在AWS EMR hadoop 2.2.0版本中运行s3distcp作业。尝试3次后,job keep失败,reducer任务失败。我也试过了:

mapred.max.reduce.failures.percent
mapreduce.reduce.failures.maxpercent

对oozie的hadoop动作配置和mapred-site.xml设置为50。但是任务还是失败了。

日志如下:

2015-10-02 14:42:16 . 001 INFO [main] org.apache.hadoop.mapreduce.Job:任务Id: attempt_1443541526464_0115_r_000010_2,状态:FAILED2015-10-02 14:42:17 005 INFO [main] org.apache.hadoop.mapreduce.Job:地图100%减少93% 2015-10-02 14:42:29,048 INFO [main]apache.hadoop.mapreduce. job: map 100% reduce 98% 2015-10-0215:04:20 . 369 INFO [main] org.apache.hadoop.mapreduce.Job: map 100%减少100% 2015-10-02 15:04:21 1378 INFO[主要]org.apache.hadoop.mapreduce.Job: Job job_1443541526464_0115 failed .日志含义task_1443541526464_0115_r_000010 . with state FAILED原因:任务失败任务失败,作业失败。failedMaps: 0 failedReduces: 1

2015-10-02 15:04:21 . 1451 INFO [main] org.apache.hadoop.mapreduce.Job:计数器:45文件系统计数器文件:读取的字节数=280FILE: Number of bytes written=10512783FILE:读取操作数=0FILE:大读操作数=0FILE:写操作数=0HDFS:读取的字节数=32185011HDFS:写入字节数=0HDFS:读取操作数=170HDFS:大读操作数=0HDFS:写操作数=28柜台工作reduce任务失败=4启动的地图任务=32已启动的reduce任务=18数据-本地映射任务=15机架本地地图任务=17所有地图占用槽位的总时间(ms)=2652786所有减少占用槽位的总时间(ms)=65506584使用映射-规约模式框架映射输入记录=156810映射输出记录=156810映射输出字节=30892192映射输出物化字节=6583455输入分割字节=3904组合输入记录=0组合输出记录=0减少输入组=0减少shuffle字节=7168减少输入记录=0减少输出记录=0把记录= 156810洗牌地图=448没有打乱= 0合并地图输出=448没有打乱= 0合并地图输出=448GC时间(ms)=2524CPU时间(ms)=108250物理内存(字节)快照=14838984704虚拟内存(字节)快照=106769969152总已提交堆使用量(字节)=18048614400洗牌的错误BAD_ID = 0连接= 0IO_ERROR = 0WRONG_LENGTH = 0WRONG_MAP = 0WRONG_REDUCE = 0文件输入格式计数器字节读= 32181107文件输出格式计数器Bytes Written=0 2015-10-02 15:04:21 1451 INFO [main] com.amazon.external.elasticmapreduce.s3distcp。S3DistCp:尝试递归删除hdfs:/tmp/218 ad028 - 8035 - 4 - f97 b113 - 3 - cfea04502fc/tempspace 2015-10-0215:04:21 . 1515 INFO [main]org.apache.hadoop.io.compress.zlib.ZlibFactory:成功加载&initialized native-zlib library 2015-10-02 15:04:21 1516 INFO [main]org.apache.hadoop.io.compress.CodecPool:获得全新的压缩器[.deflate] 2015-10-02 15:04:21 . 554 INFO[主要]org.apache.hadoop.mapred.Task:任务:attempt_1443541526464_0114_m_000000_0已完成。在提交流程2015-10-02 15:04:21 1,570 INFO [main]org.apache.hadoop.mapred.Task:任务现在允许提交Attempt_1443541526464_0114_m_000000_02015-10-02 15:04:21 . 584 INFO [main]org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter:保存任务'attempt_1443541526464_0114_m_000000_0'的输出hdfs://rnd2-emr-head.ec2.int$ 2015-10-02 15:04:21 1598 INFO [main]org.apache.hadoop.mapred.Task:任务"attempt_1443541526464_0114_m_000000_0"完成。2015-10-02 15:04:21,616INFO [Thread-6] amazon.emr.metrics.MetricsSaver:内部MetricsSaver关闭钩

您可以尝试清理hdfs://tmp目录吗?只要对目录进行备份,因为其他一些应用程序使用tmp目录,如果您遇到任何问题,您可以替换tmp目录。

相关内容

  • 没有找到相关文章

最新更新