Hadoop排序阶段耗时数小时

我开始使用hadoop一周了。在成功地运行了这些示例之后，我做了一个mapreduce作业，使用WordCount示例来查找最常用的单词。

我正在尝试用500 MB或数据运行此作业。

然而，地图任务需要几个小时。它目前在地图上67%减少0%。

地图任务日志如下所示：

2014-10-24 11:19:52,274 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2554
2014-10-24 11:19:52,278 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2554
2014-10-24 11:19:52,279 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 5
2014-10-24 11:19:55,279 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2555
2014-10-24 11:19:55,280 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2555
2014-10-24 11:19:55,280 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 1

这会发生吗，花那么长时间？

一些提示：

你说的长（多长）是什么意思
在映射任务长时间运行的地方进行堆栈跟踪，看看它在哪里被卡住了
此外，他们经常失败的任务是什么状态
您的集群中有多少映射和减少

相关内容

最新更新

热门标签：