使用 Azure 数据工厂 (ADF) 仅复制 Azure 数据湖存储中的最新文件



我正在尝试从 Azure 数据湖存储复制数据,执行一些处理,并使用 Azure 数据工厂将其移动到同一数据湖中的其他文件夹中。源数据按年、月和日进行组织。我只想每天复制最新的文件并不断替换它。如何使用 ADF 执行此操作?我看到了一些关于使用切片开始和结束日期的答案,但这仍然意味着在 JSON 文件中给出日期。如何自动更改这些日期?

假设您使用的是 ADFv2。

我看到一些关于使用切片开始和结束日期的答案,但是 仍然意味着在 JSON 文件中给出日期。如何更改 那些日期自动?

这是要走的路,它是自动的。您不必在管道中给出日期。参数化日期并将管道附加到翻转窗口触发器,并使用触发器系统变量 @trigger((.outputs.windowStartTime。所以现在触发器将给出日期。

然后,可以每 24 小时计划一次触发器,以便翻转窗口触发器将 @trigger((.outputs.windowStartTime(例如 2019/02/13((您可以根据数据湖结构根据需要格式化日期 - ADF 中可用的格式选项(传递到管道活动,并要求活动从 azuredatalake/2019/02/13/file 读取.txt

按照此文档获取想法。

最新更新