hadoop2.2.0中的数据备份和恢复

我是Hadoop的新手，对Hadoop管理很感兴趣，所以我尝试在Ubuntu 12.04中以伪分布式模式安装Hadoop 2.2.0，并成功安装并运行了一些示例jar文件，现在我正在尝试进一步学习，现在尝试学习数据备份和恢复部分，有人能告诉我如何在Hadoop 2.2.0中备份和恢复数据吗，同时也请推荐一些Hadoop管理方面的好书和学习Hadoop管理的步骤。

提前感谢。

Hadoop中没有经典的备份和恢复功能。这有几个原因：

HDFS使用块级复制通过冗余进行数据保护
HDFS在规模上进行了大规模扩展，而且备份到磁盘而不是磁带变得更加经济
"大数据"的规模不适合轻易备份

Hadoop使用的不是备份，而是数据复制。在内部，它为每个数据块创建多个副本(默认情况下为3个副本(。它还有一个名为"distcp"的函数，它允许您在集群之间复制数据副本。这是大多数Hadoop运营商通常对"备份"所做的操作。

一些公司，如Cloudera，正在将distcp工具集成到为Hadoop分发创建"备份"或"复制"服务中。它针对HDFS中的特定目录进行操作，并将其复制到另一个集群。

如果你真的想为Hadoop创建一个备份服务，你可以自己手动创建一个。您需要某种访问数据的机制(NFS网关、webFS等(，然后可以使用磁带库、VTL等创建备份。

相关内容

最新更新

热门标签：