无法通过通用选项解析器设置mapreduce.job.reduce


hadoop jar MapReduceTryouts-1.jar invertedindex.simple.MyDriver -D mapreduce.job.reduces=10 /user/notprabhu2/Input/potter/ /user/notprabhu2/output

我一直在徒劳地试图通过GenericOptionParser提供的-D选项设置减少器的数量,但它似乎不起作用,我不知道为什么。

我尝试了-D mapreduce.job.reduces=10(在-D之后有空格)和

-Dmapreduce.job.reduces=10 (-D后没有空格)但似乎没有闪避。

在我的Driver类中我已经实现了Tools。

package invertedindex.simple;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
public class MyDriver extends Configured implements Tool {
    @Override
    public int run(String[] args) throws Exception {
        Configuration conf = getConf();
        Job job = Job.getInstance(conf);
        job.setJarByClass(MyDriver.class);
        Path outputPath =  new Path(args[1]);
        outputPath.getFileSystem(getConf()).delete(outputPath, true);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        TextInputFormat.addInputPath(job, new Path(args[0]));
        TextOutputFormat.setOutputPath(job, outputPath);
        job.setNumReduceTasks(3);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        return job.waitForCompletion(true) ? 0 : 1;
    }
    public static void main(String[] args) throws Exception {
        int exitCode = ToolRunner.run(new Configuration(),new MyDriver(), args);
        System.exit(exitCode);
    }
}

由于我在驱动程序代码中显式地将reducer的数量设置为3,因此我总是以3个reducer结束。

我使用的是CDH 5.4.7,它在谷歌计算引擎的2节点集群上有Hadoop 2.6.0

明白了。结果很傻,但还是把答案贴出来了,以防有人也犯同样愚蠢的错误。

似乎我的驱动程序类中的job.setNumReduceTasks(3);行优先于命令行中的-D mapreduce.job.reduces=10

当我从代码中删除job.setNumReduceTasks(3);行时,一切正常。

在XML标签

中设置reduce.job.reduce的个数属性

在mapred-site.xml中设置属性,该属性将由配置代码调用:

<property>
    <name>mapreduce.job.reduces</name>
    <value>5</value>
</property>

重新启动hadoop进程

相关内容

  • 没有找到相关文章

最新更新