我是Azure数据工厂的新手,请原谅我愚蠢或明显的问题。
我想每天安排一次存储在Azure Blob存储中的GCS存储桶中的副本文件。到目前为止,我设法从GCS的bucket中复制(手动和通过安排管道活动(文件,我正在手动上传文件。
在不久的将来,上传将在给定的时间每天自动进行一次,大概是在晚上。我的目标是安排只复制最后添加的文件,避免每次复制所有文件,覆盖现有的。
这需要编写一些python脚本吗?有什么参数需要设置吗?
提前感谢大家的回复。
不需要任何显式编码。Adf支持简单的复制活动,将数据从GC移动到blob存储,其中GC将充当源,blob存储将充当复制活动中的接收器。
https://learn.microsoft.com/en-us/azure/data-factory/connector-google-cloud-storage?tabs=data-工厂
要获取最新的文件,您可以使用获取元数据活动来获取文件列表并过滤最新文件