Hadoop备份和恢复工具和指导



我是新来的hadoop,需要学习有关备份和恢复的详细信息。我已经修订了Oracle备份和恢复,这对Hadoop有帮助吗?我应该从哪里开始

有一些备份和恢复的选项。正如S.Singh指出的那样,数据复制不是DR。

HDFS支持快照。这可以用来防止用户错误,恢复文件等。也就是说,在Hadoop群集完全失败的情况下,这不是DR。(http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfssnapshots.html)

最好的选择是保持异地备份。这可以是另一个Hadoop群集,S3等,可以使用DistCP执行。(http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/amazons3)

这是Cloudera讨论DR(http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)

hadoop旨在在1000节点的大群集上工作。数据丢失可能更少。您可以增加复制因子以将数据复制到整个集群的许多节点中。

参考数据复制

对于Namenode日志备份,您可以使用辅助Namenode或Hadoop高可用性

辅助Namenode

辅助Namenode将获得NAMNODE日志的备份。如果Namenode失败,则可以从次级Namenode中恢复Namenode日志(保存数据块信息)。

高可用性

高可用性是在集群中运行多个Namenode的新功能。一个Namenode将处于活动状态,另一个将处于待机状态。日志保存在两个Namenode中。如果一个Namenode失败,则另一个Namenode会变得活跃,并且将处理操作。

,但在大多数情况下,我们还需要考虑备份和灾难恢复。请参阅 @brandon.bell答案。

您可以在dataTorrent上使用HDFS Sync应用程序,以备份DR用例,将大量数据从一个HDFS群集备份到另一个HDFS群集。

https://www.datatorent.com/apphub/hdfs-sync/

它使用Apache Apex作为处理引擎。

从官方文档网站开始:hdfsuserguide

请查看以下SE帖子:

hadoop 2.0数据写操作确认

hadoop:hdfs文件写入&阅读

Hadoop 2.0名称节点,辅助节点和检查点节点的高可用性

Hadoop Namenode故障转移过程如何工作?

关于恢复的文档页面:

通常,您将配置多个元数据存储位置。然后,如果一个存储位置损坏,则可以从其他存储位置之一读取元数据。

但是,如果可用的唯一存储位置损坏,该怎么办?在这种情况下,有一个特殊的名称启动模式称为恢复模式,它可能允许您恢复大多数数据

您可以在恢复模式下启动Namenode: namenode -recover

最新更新