我们已经有Move-AzureRmDataLakeStoreItem
可以在Azure datalake中的文件夹之间移动文件。我正在寻找的是复制数据湖中的文件而不影响原始文件。
我知道的可能性是——
- 使用
USQL
从源文件EXTRACT
数据,然后OUTPUT
到目标文件 - 但我正在尝试复制所有类型的文件(.gz,.txt,.info,.exe,.msi),我不确定USQL
是否可以帮助我处理.gz或.exe或.msi文件 - 使用
Data Factory
将数据从/复制到Data Lake store
因此,我的问题是,我们是否还有其他可以使用的东西来执行 Azure 数据湖存储中的文件副本?
你还有其他几个选择,
- 在 HDI 群集上运行 distcp - 类似于此处提供的说明。 https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-copy-data-wasb-distcp
- 如果您要复制有限数量的数据(例如 10-100 GB),请使用 adlcopy - https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-copy-data-azure-storage-blob
请问这就够了吗?或者,是否需要 Azure Data Lake Store 通过其 REST API 原生支持的内容?
谢谢 萨钦·谢斯 Azure Data Lake 项目经理。