hadoop2.2.0中的数据备份和恢复



我是Hadoop的新手,对Hadoop管理很感兴趣,所以我尝试在Ubuntu 12.04中以伪分布式模式安装Hadoop 2.2.0,并成功安装并运行了一些示例jar文件,现在我正在尝试进一步学习,现在尝试学习数据备份和恢复部分,有人能告诉我如何在Hadoop 2.2.0中备份和恢复数据吗,同时也请推荐一些Hadoop管理方面的好书和学习Hadoop管理的步骤。

提前感谢。

Hadoop中没有经典的备份和恢复功能。这有几个原因:

  • HDFS使用块级复制通过冗余进行数据保护
  • HDFS在规模上进行了大规模扩展,而且备份到磁盘而不是磁带变得更加经济
  • "大数据"的规模不适合轻易备份

Hadoop使用的不是备份,而是数据复制。在内部,它为每个数据块创建多个副本(默认情况下为3个副本(。它还有一个名为"distcp"的函数,它允许您在集群之间复制数据副本。这是大多数Hadoop运营商通常对"备份"所做的操作。

一些公司,如Cloudera,正在将distcp工具集成到为Hadoop分发创建"备份"或"复制"服务中。它针对HDFS中的特定目录进行操作,并将其复制到另一个集群。

如果你真的想为Hadoop创建一个备份服务,你可以自己手动创建一个。您需要某种访问数据的机制(NFS网关、webFS等(,然后可以使用磁带库、VTL等创建备份。

最新更新