Hadoop排序阶段耗时数小时



我开始使用hadoop一周了。在成功地运行了这些示例之后,我做了一个mapreduce作业,使用WordCount示例来查找最常用的单词。

我正在尝试用500 MB或数据运行此作业。

然而,地图任务需要几个小时。它目前在地图上67%减少0%。

地图任务日志如下所示:

2014-10-24 11:19:52,274 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2554
2014-10-24 11:19:52,278 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2554
2014-10-24 11:19:52,279 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 5
2014-10-24 11:19:55,279 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2555
2014-10-24 11:19:55,280 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2555
2014-10-24 11:19:55,280 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 1

这会发生吗,花那么长时间?

一些提示:

  • 你说的长(多长)是什么意思
  • 在映射任务长时间运行的地方进行堆栈跟踪,看看它在哪里被卡住了
  • 此外,他们经常失败的任务是什么状态
  • 您的集群中有多少映射和减少

相关内容

  • 没有找到相关文章

最新更新