我是Hadoop的新手,只是尝试wordcount的例子。我只是构建了一个指向http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
的节点我上传了一个非常简单的文字到HDFS,并运行wordcount.jar.
不知何故,reducer需要非常非常长的时间来处理。我知道这是I/O瓶颈,但是有什么方法可以设置一些参数使它更快吗?(哈哈,reduce过程仍然是0%,几乎20分钟)
13/06/04 15:53:14 INFO mapred.JobClient: map 100% reduce 0%
如果你想修改一些Hadoop设置,比如增加Reduce任务的数量,你可以使用"-D"选项:
hduser@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop*examples*.jar wordcount -D mapred.reduce.tasks=8 /user/hduser/temp-data /user/hduser/temp-data-output
此外,对于HDFS,您不能强制执行映射任务mapred.map.tasks
的数量,但您可以指定mapred.reduce.tasks
,如本链接所述
似乎你的Hadoop有一些问题,MR不能正常运行。
请检查:
- 您的Hadoop是否正常工作通过访问
http://localhost:50030
,这是您的Hadoop的JobTracker web 查看$HADOOP_HOME/logs/中的日志文件,特别是
*jobtracker*.log
和*tasktracker*.log
。通常,如果这是你第一次测试Hadoop。请查看此链接:Hadoop WordCount示例卡在map 100% reduce 0%