Hortonworks NodeManager开始但随后失败:连接拒绝:8042



我正在尝试通过在我们的hortonworks群集上使用新添加的数据码来解决一个问题。启动后不久,该节点的纱线Namenode管理器将失败。返回以下错误消息日志:

Connection failed to http://(ipaddress):8042/ws/v1/node/info (Traceback (most recent call last):
  File "/var/lib/ambari-agent/cache/common-services/YARN/2.1.0.2.0/package/alerts/alert_nodemanager_health.py", line 166, in execute
    connection_timeout=curl_connection_timeout, kinit_timer_ms = kinit_timer_ms)
  File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/curl_krb_request.py", line 198, in curl_krb_request
    _, curl_stdout, curl_stderr = get_user_call_output(curl_command, user=user, env=kerberos_env)
  File "/usr/lib/python2.6/site-packages/resource_management/libraries/functions/get_user_call_output.py", line 61, in get_user_call_output
    raise ExecutionFailed(err_msg, code, files_output[0], files_output[1])
ExecutionFailed: Execution of 'curl --location-trusted -k --negotiate -u : -b /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 -c /var/lib/ambari-agent/tmp/cookies/4268dd36-9f72-4be0-8d82-5f0a124a3a72 http://gdcdrwhdb821.dir.ucb-group.com:8042/ws/v1/node/info --connect-timeout 5 --max-time 7 1>/tmp/tmp7pZrbM 2>/tmp/tmpgM4wdg' returned 7.   % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0curl: (7) Failed connect to (ipaddress):8042; Connection refused
)

这并没有真正告诉我为什么拒绝连接,除了纱线过程与端口8042不运行的任何内容:

netstat -tulpn | grep 8042

我一直在寻找另一条nodemanager日志,也许还有更多信息,但是在/var/log/log/hadoop yarn或yarn.nodemanager.local-dirs/yarn.nodemanager.log-dirs

还有其他地方可以寻找纱线NodeManager错误日志吗?有人知道会导致这一点吗?

编辑:重新检查后,我在/var/log/hadoop-yarn/yarn/yarn-yarn-yarn-nodemanager-(ipaddress(.log

中发现了这一点。
2017-04-19 14:01:14,670 FATAL nodemanager.NodeManager (NodeManager.java:initAndStartNodeManager(549)) - Error starting NodeManager
org.apache.hadoop.service.ServiceStateException: java.lang.ClassNotFoundException: org.apache.spark.network.yarn.YarnShuffleService

您是否可以解决此问题?

我今天面临类似的问题。

我在HDP群集中停止纱线并删除/var/log/hadoop yarn/nodeManager/recuseion-state目录,然后再次启动纱线。

NodeManager正在运行而又没有失败。

不确定现在是否有帮助。可能您可能已经解决了。

您正在使用外部洗牌服务。这是NodeManager服务中的辅助服务。目前,它无法在ClassPath中找到洗牌服务罐。

它在我这边也很好。请在特定节点上停止纱线服务,而不是完整的纱线服务。

我在HDP群集中停止纱线并删除/var/log/hadoop yarn/nodeManager/recuseion-state目录,然后再次启动纱线。

这也对我有用。我认为这是权限文件问题。

需要增加警报中健康检查的超时。

相关内容

  • 没有找到相关文章

最新更新