我开始使用hadoop一周了。在成功地运行了这些示例之后,我做了一个mapreduce作业,使用WordCount示例来查找最常用的单词。
我正在尝试用500 MB或数据运行此作业。
然而,地图任务需要几个小时。它目前在地图上67%减少0%。
地图任务日志如下所示:
2014-10-24 11:19:52,274 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2554
2014-10-24 11:19:52,278 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2554
2014-10-24 11:19:52,279 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 5
2014-10-24 11:19:55,279 DEBUG [IPC Parameter Sending Thread #0] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 sending #2555
2014-10-24 11:19:55,280 DEBUG [IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001] org.apache.hadoop.ipc.Client: IPC Client (592959754) connection to /xxx.xx.xx.xx:52026 from job_1414134493988_0001 got value #2555
2014-10-24 11:19:55,280 DEBUG [communication thread] org.apache.hadoop.ipc.RPC: Call: ping 1
这会发生吗,花那么长时间?
一些提示:
- 你说的长(多长)是什么意思
- 在映射任务长时间运行的地方进行堆栈跟踪,看看它在哪里被卡住了
- 此外,他们经常失败的任务是什么状态
- 您的集群中有多少映射和减少