当运行hadoop作业时,我注意到有时完成的任务数量减少而取消的任务数量增加。
这怎么可能?为什么会发生这种情况?
我只在我们的集群处于一个奇怪的状态时经历过这种情况,所以我不确定这是否是同样的问题。基本上,地图任务将完成,然后减速机将启动……然后映射器将被重新处理。
我认为问题是mapper输出挂在数据节点上,等待reducer拾取它。如果该节点有问题或死亡,JobTracker决定它需要再次重新运行该任务,即使它已经完成。我们的问题是,我们的NameNode所在的系统有一些与hadoop无关的问题,一旦这些问题得到解决,它似乎就消失了。
如果我的经历与你的问题无关,我很抱歉。也许,你能发布更多的细节吗?您看到任何错误消息了吗?您的JobTracker或NameNode日志中有什么奇怪的东西吗?