我们为高可用性配置了一个应用程序。
在这两个节点中,其中一个节点被激活(比如NN1),另一个节点(比如NN2)的NameNode进程被终止。因此,现在NN1处于活动状态。
现在我们提交了一个mapreduce作业,日志一直在说
"申请提交未完成,提交的申请Application_someid仍在NEW_SAVING中"。
这种情况持续大约17分钟,然后作业成功执行。因此,这意味着故障转移已经发生,并且NN1处于活动状态。但为什么要花这么长时间?
纱线节点管理器日志显示:
INFO org.apache.hadoop.ipc.Client:正在重新连接到服务器:。已经尝试了9次;重试策略为RetryUpToMaximumCountWithFixedSleep(最大重试次数=10,睡眠时间=1000毫秒)
有人能解释一下为什么会发生这种事吗?
提前感谢
我不知道这个问题的原因,但是重新启动纱线服务帮助我解决了这个问题。