Azure 数据工厂:现在将大型表从服务加载到 Blob 存储中,为什么 ADF 不会将表中的所有记录拉取到 json/orc 文件中?



所以,我对使用Azure Data Factory还很陌生,而且我在使用ADF和Service Now作为源时遇到了一些奇怪的行为。

前言:我正在与一个使用ServiceNow和Snowflake的客户合作。目标是导入";较大的";使用Blob存储作为中介,将ServiceNow中的表(比如900k行(转换为雪花。

它的工作方式是,我设置了一个复制数据任务,将表从ServiceNow拉到json或orc文件中。然后,我在snowflake中使用Copy into命令将数据摄取到snowflake表中。相对简单。

然而,我注意到ADF中的"复制数据"任务只将不到一半的Service now表拉入blob存储文件。我不明白为什么。该表大约有937k条记录。仅加载412k条记录后,ADF作业就成功完成。我在复制数据任务中没有进行筛选。这是直接的源到汇(源到目标(。

在测试了一个较小的表(120k条记录(后,ADF将全部记录正确加载到blob存储json或orc文件中。我对informatica有很多经验,当在informatica中加载同一个ServiceNow表时,所有937k行都会被复制。

为什么ADF看不到此表中的所有937k行?就好像ADF在说";完成";。

它与ADF驱动程序的内部分页有关。ServiceNow端遇到超时,但ADF不理解这一点,并继续下一页。