Azure 数据工厂是否支持定义递归循环或修改其退出条件的循环?



ADF(v2(是否允许递归活动,或修改循环所覆盖集合的循环?


这个问题不是关于获取文件夹的所有嵌套子项,也不是关于查找集合的最小值。这些只是您可以使用这样的控制结构的特定示例。不要回复具体案例的解决方案

  • 给定一个文件夹,您可以使用Get-Metdata活动轻松列出该文件夹的直接子级
  • 你可以对每个孩子进行迭代
  • 如果其中一个孩子本身就是一个文件夹,你可以得到它是的直接孩子

。。。

但我看不出是否有任何ADF控制结构允许你继续这个过程,直到它结束,建立一个途中发现的所有文件的集合。你可以构建一个向下固定级别的管道,但你不能是实际上递归的?

类似地,假设你想找到一个集合中最小的元素,并且你有一个.first().filter(),但没有.sort()(哈!什么样的疯狂系统会做那个!(。然后是一个可修改的循环条件,你可以做一些类似的事情:

While(list.length > 1) {
list = filter(list, where listElement <= first(list))
}

如果我理解正确,你想浏览N个目录中的递归文件集,然后能够根据迭代的所有文件进行一些过滤吗?

如果是这样的话,我会考虑设置一个数据集,根据文件的分区方式,使用通配符作为文件夹路径。您应该能够指向类似2020/*/*/*.csv的内容。这很容易。但是,要过滤IN中的文件,您需要使用映射数据流并将该数据集用作源,然后构建一个过滤结果的管道。

https://learn.microsoft.com/en-us/azure/data-factory/data-flow-filter

最新更新