我应该进行集群镜像,在那里我必须设置与现有集群类似的HDFS集群(相同的主集群和从集群),并将数据复制到新集群,然后按原样运行相同的作业。
我读过关于falcon作为一种提要处理和工作流协调工具的文章,它也用于HDFS集群的镜像。有人能告诉我Falcon在Hadoop生态系统中的作用是什么,以及它如何特别帮助镜像吗。我希望在这里了解所有facon在我的Hadoop生态系统(HDP)中提供的功能。
- Apache Falcon简化了数据运动的配置:复制;生命周期管理;血统和可追溯性。这提供了Hadoop组件之间的数据治理一致性
- Falcon复制与增量更改是异步的。恢复是通过运行一个进程并交换源和目标来完成的
- 数据丢失–如果主群集完全关闭,增量数据可能会丢失
- 根据带宽和网络可用性,可以在需要时安排备份