ambari集群+ambari代理与ambari服务器之间连接不良



当ambari版本为2.6.x 时,我们有一个带有872个数据节点机器的ambari集群

我们现在有一些网络问题,

经过长时间的调查,我们发现在某些机器上运行的ambari代理与ambari服务器通信不畅

因此,我们从ambari仪表板中得到了一些奇怪的行为,即5个死数据节点,而数据节点机器是健康的

是否可以在ambari代理配置中提供更大的可容忍值,以便ambari代理到ambari服务器之间的ack将在更短的时间后进行,从而忽略网络问题?

类似于ambari代理到ambari服务器之间的超时或时间连接

首先,您需要了解数据节点显示为Dead的根本原因。

  1. Ambari代理在每个节点上运行。它负责发送度量和心跳发送到Ambari服务器,然后发布到您的Ambari网络用户界面
  2. name节点等待10分钟,直到它宣布数据节点为dead并复制块到其他数据节点
  3. 如果显示数据节点已失效,请检查中的Ambari代理状态通过运行-service ambari-agent status来指定特定节点。并行地,您可以检查工作节点中的ambari-agent.log,以检查Ambari代理停止工作的原因

您可以在ambari代理中为服务任务配置http超时,http超时

https://github.com/apache/ambari/blob/trunk/ambari-agent/conf/unix/ambari-agent.ini

有一个HTTP超时部分,您可以根据网络吞吐量对其进行配置。

文件应位于/etc/ambari agent/ambari.properties 中

最新更新