名称节点 HA 故障转移时间



Namenode HA (NFS, QJM( 在 Hadoop 2.x (HDFS-1623( 中可用。它为 Namenode 提供了快速故障转移,但我找不到任何关于从故障中恢复需要多长时间的描述。谁能告诉我?


谢谢你的回答。事实上,我想知道两个节点(活动名称节点和备用名称节点(转换之间的时间,你能告诉我多长时间吗?

以下是使用备用 NameNode 进行故障转移的一些合格示例:

一个 60 节点群集,包含 600 万个块,使用 300TB 原始存储和 100K 文件:30 秒。因此,总故障转移时间范围为 1-3 分钟。

一个 200

节点的集群,其中 2000 万个块占用 1PB 原始存储和 100 万个文件:110 秒。因此,总故障转移时间范围为 2.5 到 4.5 分钟。

对于中小型集群,冷故障转移仅慢 30 到 120 秒。

寄件人: http://hortonworks.com/blog/ha-namenode-for-hdfs-with-hadoop-1-0-part-1/

来自Hadoop:权威指南,我相信这很容易理解并且非常简单><。故障转移和屏蔽

从活动名称节点到备用名称节点的转换由系统中称为故障转移控制器的新实体。故障转移控制器是可插拔的,但第一个实现使用ZooKeeper以确保只有一个名称节点处于活动状态。每个命名节点运行一个轻量级故障转移控制器进程,其工作是监视其失败的名称节点(使用简单的检测信号机制(和如果名称节点发生故障,则触发故障转移。

故障转移也可以由管理员手动启动,在例如,日常维护的情况。这被称为优雅故障转移,因为故障转移控制器安排有序转换两个名称节点以切换角色。

在但是,无法确定不正常的故障转移失败的命名节点已停止运行。例如,慢速网络或网络分区可以触发故障转移转换,即使以前处于活动状态的 Namenode 仍在运行,并认为它仍在运行活动名称节点。HA 的实施竭尽全力确保防止先前活动的 Namenode 执行任何操作损坏并导致损坏 - 一种称为屏蔽的方法。系统介绍采用一系列击剑机制,包括杀死NameNode 的进程,撤销其对共享存储的访问权限目录(通常使用特定于供应商的 NFS 通信(,以及通过远程管理命令禁用其网络端口。作为最后度假村,以前活动的 namenode 可以用一种技术围起来而是图形上称为STONITH,或"射击另一个节点头",它使用指定的配电单元强行关闭主机电源。

客户端

故障转移由客户端库透明地处理。这最简单的实现使用客户端配置来控制故障转移。HDFS URI 使用映射到名称节点地址对(在配置文件中(和客户端库会尝试每个命名节点地址,直到操作成功。

希望对您有所帮助!

  • 快速故障转移意味着不是恢复,而是故障转移到其他名称节点
  • Ha 名称节点
  • 配置有多个名称节点
  • 如果任何一个名称节点发生故障,则其他名称节点将变为活动状态。
  • 如果失败名称节点再次启动意味着,它将处于待机状态。
  • 使用 HA 时,将运行多个命名节点群集,但日志节点一次只会写入单个名称节点。因此,一个名称节点将处于活动状态,另一个名称节点将处于待机状态

  • 如果一个命名节点发生故障,则备用节点将转换为活动状态。它称为从故障中恢复。

最新更新