当我运行一个加载大量小文件的Pig作业时,它会在以下步骤中暂停很长时间:
2013-07-15 16:44:00,464 [JobControl] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37
在此期间,我在作业跟踪器中没有看到map reduce作业,所以我认为Pig正在发出HDFS命令来预组合文件(可能是?)。偶尔,这份工作似乎会莫名其妙地永远存在。
有没有任何方法可以监控这个组合过程的进展(请参阅有关它目前正在做什么的更多详细信息)?
感谢
你看过Hadoop档案吗?这可能有助于减少获取多个小文件所花费的时间。