在伪分布式模式下运行map reduce时遇到一些问题。我在linux上运行1.2.1版本。我有:1.创建$JAVA_HOME&HADOOP_ HOME并将相对bin目录添加到该路径;2.格式化dfs;3.执行start-dfs.sh和start-mapred.sh.
执行jp似乎显示了所有应该运行的东西(我认为)。
[paul@lt001 bin]$ jps
8724 TaskTracker
8487 SecondaryNameNode
8841 Jps
8353 DataNode
7239 NameNode
8597 JobTracker
然后我尝试运行wordcount和pi示例,结果相似,例如:
[paul@lt001 bin]$ hadoop jar hadoop/hadoop-examples-1.2.1.jar pi 4 1000
Warning: $HADOOP_HOME is deprecated.
Number of Maps = 4
Samples per Map = 1000
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Starting Job
13/11/18 10:31:38 INFO mapred.FileInputFormat: Total input paths to process : 4
13/11/18 10:31:39 INFO mapred.JobClient: Running job: job_201311181028_0001
13/11/18 10:31:40 INFO mapred.JobClient: map 0% reduce 0%
13/11/18 10:31:47 INFO mapred.JobClient: map 50% reduce 0%
13/11/18 10:31:52 INFO mapred.JobClient: map 100% reduce 0%
在每个实例中,输出到达映射100%减少0%阶段,然后停止。不管我等多久,这份工作都不会有任何进展。我已经检查了日志,我怀疑表明问题的是hadoop-paul-tasktracker-lt001.log,它有以下输出:
2013-11-18 10:31:55,969 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 10:34:59,148 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 10:35:05,196 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 10:35:11,253 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
..........
2013-11-18 11:10:03,259 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:06,290 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:12,320 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:18,343 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:21,369 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:27,395 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:33,426 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
2013-11-18 11:10:36,463 INFO org.apache.hadoop.mapred.TaskTracker: attempt_201311181028_0001_r_000000_0 0.0% reduce > copy >
这似乎与这里的问题相同:
运行Hadoop示例在伪分布式模式中停止
已检查JobTracker网页上的状态,此运行显示4个已完成的地图任务和1个正在运行(40分钟后完成0%)的减少任务。
它似乎被困在reduce>copy>上,但为什么?有人能帮我看看下一步该去哪里吗?
更新
我想我有更多的信息。如果我查看正在运行的减少任务
(http://localhost:50030/taskdetails.jsp?tipid=task_201311201256_0001_r_000000)
我看到它被分配到机器/默认机架/hit-nxdomain.opendns.com
如果我尝试点击"最后4KB任务日志"链接,它会将我发送到
http://hit-nxdomain.opendns.com:50060/tasklog?attemptid=attempt_201311201256_0001_r_000000_0&start=-4097
将此URL修改为
http://localhost:50060/tasklog?attemptid=attempt_201311201256_0001_r_000000_0&start=-4097
然后显示带有以下许多示例的日志:
2013-11-20 14:59:54,726 INFO org.apache.hadoop.mapred.ReduceTask: Penalized(slow) Hosts:
2013-11-20 14:59:54,726 INFO org.apache.hadoop.mapred.ReduceTask: hit-nxdomain.opendns.com Will be considered after: 814 seconds.
2013-11-20 15:00:54,729 INFO org.apache.hadoop.mapred.ReduceTask: attempt_201311201256_0001_r_000000_0 Need another 4 map output(s) where 0 is already in progress
2013-11-20 15:00:54,729 INFO org.apache.hadoop.mapred.ReduceTask: attempt_201311201256_0001_r_000000_0 Scheduled 0 outputs (1 slow hosts and0 dup hosts)
2013-11-20 15:00:54,730 INFO org.apache.hadoop.mapred.ReduceTask: Penalized(slow) Hosts:
2013-11-20 15:00:54,730 INFO org.apache.hadoop.mapred.ReduceTask: hit-nxdomain.opendns.com Will be considered after: 754 seconds.
因此,hadoop似乎认为该任务正在hit-nxdomain.opendns.com主机上运行。
主机(localhost)通过DHCP获取其DNS设置,路由器设置为DNS服务器。路由器反过来使用opendns.com来解析外部地址。
我认为这是一个DNS问题,这是对的吗?
知道hadoop是如何使用这个主机名的吗?
知道怎么修吗?
这确实是DNS问题(反向查找有问题)。分辨率如下:
检查"已暂停"任务(via http://localhost:50030/
)的任务日志。这显示了DNS的问题。
我发现一个堆栈溢出的帖子建议使用
hadoop dns检查器
这表明,虽然本地主机的查找/反向查找很好,但主机名的查找/逆向查找不起作用。解决了这个问题。
实际的问题是主机通过DHCP(通过路由器)获取其IP,该DHCP与(dnsmasq)dns服务器是分开的。因此,它没有向DNS服务器注册主机名。因此,dns服务器将dns查找向上游传递给我们的dns提供商,并返回一个"伪"IP地址,然后解析为opendns"未找到"主机名。MapReduce使用此主机名作为reduce任务的主机名。启用dnsmasq dhcp并在路由器上取消它就解决了这个问题——主机现在从dnsmasqu获取其IP地址,并向DNS服务器注册其主机名。DNS查找和反向查找现在同时适用于localhost和主机/主机名。