Hadoop备份和恢复工具和指导

我是新来的hadoop，需要学习有关备份和恢复的详细信息。我已经修订了Oracle备份和恢复，这对Hadoop有帮助吗？我应该从哪里开始

有一些备份和恢复的选项。正如S.Singh指出的那样，数据复制不是DR。

HDFS支持快照。这可以用来防止用户错误，恢复文件等。也就是说，在Hadoop群集完全失败的情况下，这不是DR。（http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfssnapshots.html）

最好的选择是保持异地备份。这可以是另一个Hadoop群集，S3等，可以使用DistCP执行。（http://hadoop.apache.org/docs/stable1/distcp2.html），（https://wiki.apache.org/hadoop/amazons3）

这是Cloudera讨论DR（http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery）

hadoop旨在在1000节点的大群集上工作。数据丢失可能更少。您可以增加复制因子以将数据复制到整个集群的许多节点中。

参考数据复制

对于Namenode日志备份，您可以使用辅助Namenode或Hadoop高可用性

辅助Namenode

辅助Namenode将获得NAMNODE日志的备份。如果Namenode失败，则可以从次级Namenode中恢复Namenode日志（保存数据块信息）。

高可用性

高可用性是在集群中运行多个Namenode的新功能。一个Namenode将处于活动状态，另一个将处于待机状态。日志保存在两个Namenode中。如果一个Namenode失败，则另一个Namenode会变得活跃，并且将处理操作。

，但在大多数情况下，我们还需要考虑备份和灾难恢复。请参阅 @brandon.bell答案。

您可以在dataTorrent上使用HDFS Sync应用程序，以备份DR用例，将大量数据从一个HDFS群集备份到另一个HDFS群集。

https://www.datatorent.com/apphub/hdfs-sync/

它使用Apache Apex作为处理引擎。

从官方文档网站开始：hdfsuserguide

请查看以下SE帖子：

hadoop 2.0数据写操作确认

hadoop：hdfs文件写入＆amp;阅读

Hadoop 2.0名称节点，辅助节点和检查点节点的高可用性

Hadoop Namenode故障转移过程如何工作？

关于恢复的文档页面：

通常，您将配置多个元数据存储位置。然后，如果一个存储位置损坏，则可以从其他存储位置之一读取元数据。

但是，如果可用的唯一存储位置损坏，该怎么办？在这种情况下，有一个特殊的名称启动模式称为恢复模式，它可能允许您恢复大多数数据。

您可以在恢复模式下启动Namenode： namenode -recover

相关内容