azure数据工厂——为第一个片执行完整的IDL



我正在研究数据工厂POC,以取代将数据从一个系统加载到另一个系统的现有数据集成解决方案。现有解决方案提取当前时间点之前的所有可用数据,然后在连续运行时提取自上次运行以来更改的新/更新数据。基本上是IDL(初始数据加载)先,然后更新。

数据工厂的工作原理有点类似,并以片的形式提取数据。然而,我需要第一个切片包括从时间开始的所有数据。我可以说管道的开始时间是"时间的开始",但这会产生太多的切片。

例如,我希望它每天运行并获取每天的增量。但我想先提取过去10年的数据。我不想做3650片来赶上进度。我希望第一个切片覆盖WindowStart参数并设置为过去的某个预定点。然后连续切片使用正常的WindowStart-WindowEnd时间间隔。

有办法做到这一点吗?

谢谢!

创建两个管道如何,一个作为"运行一次"传输所有初始数据,然后克隆该管道,因此您可以复制管道中的所有数据集和链接的服务引用。然后将时间表添加到其中,并使用SQL查询仅获取使用日期变量的新数据?在第二个管道中需要这样的内容:

"source":
{
    "type": "SqlSource",
    "SqlReaderQuery": "$$Text.Format('SELECT * FROM yourTable WHERE createdDate > \'{0:yyyyMMdd-HH}\'', SliceStart)"
},
"sink":
{
    ...
}

希望你明白。

相关内容

  • 没有找到相关文章

最新更新