我无法使用Apache Falcon将数据从一个Hadoop集群备份到另一个Hadoop集群。
数据从一个集群备份到另一个集群的方法是什么?
是否有任何流程实体或oozie工作流需要使用Apache Falcon从一个集群到另一个集群进行数据备份?
Apache falcon提供了备份数据到另一个hadoop集群和amazon s3的选项。微软azure在计划中,但我不确定它目前的状态。
数据备份可以通过使用feed的Replication特性来完成。详情请参阅http://falcon.apache.org/FalconDocumentation.html#Replication。
您需要提交集群xml和一个提要xml用于复制(在您的情况下需要进行备份)。集群xml将包含要从何处复制数据的集群的详细信息。
Apache Falcon使用Feed复制提供从一个hadoop集群到另一个hadoop集群的直接复制。定义集群(每个集群对应于每个hadoop集群),并定义一个包含这两个集群的提要,其中一个标记为type="源",另一个标记为type="目标"(源集群到目标集群复制)。提交和调度提要,您的复制将开始。