Falcon vs Wandisco Non-stop



用例是:我需要将所有数据从一个HDFS集群复制到另一个具有相同主集群和从集群设置的集群,然后我将释放上一个集群,并开始在新集群中运行我的作业。

我读过关于Apache Falcon和Wandisco不间断Hadoop的文章,它们有助于镜像。但当我把它们作为生态系统的一部分时,我不确定它们还能提供什么其他优势(哪一个更有利?-这取决于我的用例,但我想知道是否有特别的优势)。根据你的经验,可以提供Falcon与Wandisco的类比吗?

(免责声明:我在WANdisco工作。)

我认为这些产品是相辅相成的。Falcon除了数据传输之外,还做了很多事情,比如设置数据工作流阶段。WANdisco的产品进行主动-主动数据复制(这意味着可以等效地使用来自源集群和目标集群的数据)。

在您的用例中,如果您使用Falcon,那么您实际上是在使用DistCP将数据复制到您的新集群中。您可能会进行初始传输以获得大部分数据,然后在某个时候您需要进行最后的切换以获取所有增量,然后您可以让应用程序在新集群上运行。

如果您使用WANdisco的产品进行数据传输,您可以同时使用两个集群,因为复制引擎使用Paxos算法协调更改。这可能会使增量迁移变得更容易。

在其他情况下,您会注意到连续主动复制与DistCP之间的差异,如备份和灾难恢复以及接收到多个数据中心。希望能有所帮助。

最新更新