我们如何复制 Azure 数据湖存储文件夹中的任何文件



我们已经有Move-AzureRmDataLakeStoreItem可以在Azure datalake中的文件夹之间移动文件。我正在寻找的是复制数据湖中的文件而不影响原始文件。

我知道的可能性是——

  1. 使用USQL从源文件EXTRACT数据,然后OUTPUT到目标文件 - 但我正在尝试复制所有类型的文件(.gz,.txt,.info,.exe,.msi),我不确定USQL是否可以帮助我处理.gz或.exe或.msi文件
  2. 使用Data Factory将数据从/复制到Data Lake store

因此,我的问题是,我们是否还有其他可以使用的东西来执行 Azure 数据湖存储中的文件副本?

你还有其他几个选择,

  1. 在 HDI 群集上运行 distcp - 类似于此处提供的说明。 https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-copy-data-wasb-distcp
  2. 如果您要复制有限数量的数据(例如 10-100 GB),请使用 adlcopy - https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-copy-data-azure-storage-blob

请问这就够了吗?或者,是否需要 Azure Data Lake Store 通过其 REST API 原生支持的内容?

谢谢 萨钦·谢斯 Azure Data Lake 项目经理。

最新更新