Azure数据工厂-Azure数据湖的增量加载



我想为没有审计字段的源系统提供增量加载模式,该字段说明记录上次修改的时间。示例:上次修改于(日期-时间(

但是,这些表是用主键和唯一键定义的,当属性发生任何更改时,应用程序会使用它们来更新记录。

现在的问题是,我如何每天确定Delta,并使用Azure数据工厂/Databricks将其加载到Azure Data Lake中。

我是否应该暂存当天和当天-1的完整数据集,并使用哈希值确定delta?

或者还有更好的方法?

由于该数据库的大小并不庞大,最终创建了一个管道,将完整的数据集加载到sql暂存中,然后将数据湖写入初始加载数据集的相关位置,然后将sql暂存提升到PreviousDay模式。

在下一个增量中,它将完整的数据集读取到sql staging中,然后与PreviousDays数据集进行比较,获取更改后的记录,并将数据湖写入相关的增量位置。然后删除现有的PreviousDay数据集,并将Staging数据集提升为PreviousDay,以便为下一个增量做好准备。

相关内容

  • 没有找到相关文章

最新更新