我们有3个节点的小CDH群集,具有约2TB数据。我们计划将其扩展,但是在当前的Hadoop机器/机架被重新定位之前。而且我只想确保我在本地机器中有备份,以防架子以某种方式不重新定位(或在途中损坏),并且我们必须安装新的机架。我该如何确保?
我从Cloudera Manager中获取了HDFS数据的快照作为备份,它位于群集上。但是在这种情况下,我需要在本地机器或硬盘驱动器上备份整个数据。请建议。
distcp数据。
可能的选项:
- 自己的解决方案 - 临时群集-2TB并不多,硬件便宜。
- 托管解决方案 - 云到云。作为服务提供商,有很多存储空间。如果不确定,S3应该为您工作。当然,数据传输是您的成本,但是托管服务与自身精心制作之间总是有交易。