使用 DISTCP 在各种 ADLS 实例之间复制数据
大家好
希望你一切顺利。 我们有一个关于使用 ADLS 作为引入过程的不同层的用例,只需要您就其可行性提出宝贵意见。
基础设施:将有两个名为 LAND & RAW 的 ADLS 实例。LAND 实例将直接从源获取文件,而 RAW 实例将在 LAND 实例中通过验证后获取文件。我们还在Azure平台上托管了一个Cloudera集群,它将建立与两个ADLS实例的连接。
过程:我们将有一组数据和控制文件登陆其中一个ADLS实例(比如登陆)。我们需要在Cloudera集群上运行一个火花代码,以在Land ADLS实例中存在的数据和控制文件之间执行计数验证。验证成功后,我们希望 distcp 命令将数据从 Land ADLS 实例复制到原始 ADLS 实例。我们假设Distcp 实用程序已经安装在 Cloudera 集群上。
你们能建议上述方法看起来不错吗? 我们的问题主要是 DISTCP 实用程序是否支持两个不同的 ADLS 实例之间的数据移动? 我们还考虑了其他选择,如ADLCopy,但Distcp似乎更好。
注意:我们尚未考虑使用 Azure 数据工厂,因为它可能存在某些安全挑战,尽管我们知道数据工厂最适合上述用例。
如果你的用例要求在多个存储帐户之间复制数据,distcp
是执行此操作的正确方法。
请注意,即使将此解决方案封装在数据工厂中,具有复制活动的管道也会调用 distcp。