如何在本地机器上备份整个HDFS数据



我们有3个节点的小CDH群集,具有约2TB数据。我们计划将其扩展,但是在当前的Hadoop机器/机架被重新定位之前。而且我只想确保我在本地机器中有备份,以防架子以某种方式不重新定位(或在途中损坏),并且我们必须安装新的机架。我该如何确保?

我从Cloudera Manager中获取了HDFS数据的快照作为备份,它位于群集上。但是在这种情况下,我需要在本地机器或硬盘驱动器上备份整个数据。请建议。

distcp数据。

可能的选项:

  • 自己的解决方案 - 临时群集-2TB并不多,硬件便宜。
  • 托管解决方案 - 云到云。作为服务提供商,有很多存储空间。如果不确定,S3应该为您工作。当然,数据传输是您的成本,但是托管服务与自身精心制作之间总是有交易。

最新更新