当ambari版本为2.6.x 时,我们有一个带有872个数据节点机器的ambari集群
我们现在有一些网络问题,
经过长时间的调查,我们发现在某些机器上运行的ambari代理与ambari服务器通信不畅
因此,我们从ambari仪表板中得到了一些奇怪的行为,即5个死数据节点,而数据节点机器是健康的
是否可以在ambari代理配置中提供更大的可容忍值,以便ambari代理到ambari服务器之间的ack将在更短的时间后进行,从而忽略网络问题?
类似于ambari代理到ambari服务器之间的超时或时间连接
首先,您需要了解数据节点显示为Dead的根本原因。
- Ambari代理在每个节点上运行。它负责发送度量和心跳发送到Ambari服务器,然后发布到您的Ambari网络用户界面
- name节点等待10分钟,直到它宣布数据节点为dead并复制块到其他数据节点
- 如果显示数据节点已失效,请检查中的Ambari代理状态通过运行-
service ambari-agent status
来指定特定节点。并行地,您可以检查工作节点中的ambari-agent.log
,以检查Ambari代理停止工作的原因
您可以在ambari代理中为服务任务配置http超时,http超时
https://github.com/apache/ambari/blob/trunk/ambari-agent/conf/unix/ambari-agent.ini
有一个HTTP超时部分,您可以根据网络吞吐量对其进行配置。
文件应位于/etc/ambari agent/ambari.properties 中