寻找一种替代解决方案来处理从 Azure Blob 到 Azure SQL DB 的数万个 JSON



我目前正在开发管道,利用 Azure 数据工厂进行业务流程,利用 Azure DataBricks 进行计算,以执行以下操作...我实时收到数万个单记录 json 文件到 Azure Blob 中,每 15 分钟检查文件夹中是否有任何新文件,一旦找到,我就使用 Databricks 将它们加载到数据帧中,并将其加载到 SQL DB 中的单个文件中,然后让其他 ADF 作业触发存储过程,然后将我的数据转换为最终的 SQL 表。我们希望摆脱Databricks,因为我们没有使用它的真正功能,但当然要支付Databricks的成本。寻找有关其他解决方案的想法,以定期(即 15 分钟(将数万个 json(只需最少或没有转换(加载到 SQL 数据库中。我们是一家微软商店,所以不一定希望远离Azure工具。

这里有一些想法:

  • 使用 Azure 函数 + Blob 触发器/事件网格实时处理 JSON 文件(每次有新的 JSON 文件到达时,它都会触发函数(。然后,您可以插入到最终表中或临时表中。

  • 另一个想法是将 Azure 函数 + Blob 触发器/事件网格结合起来,将数据接收器到数据湖。可以使用 ADF 将其接收到 SQL 最终表。

Azure SQL DB实际上非常有能力,因此你可以使用OPENROWSET直接从blob存储导入数据并OPENJSON将其粉碎。 然后,可以使用按计划运行的逻辑应用每 15 分钟调用一次过程,甚至不需要 ADF 作为解决方案的一部分。

我之前已经制定了几个类似的答案,例如在这里和这里,但如果您想在这条路线上取得更多进展,请告诉我,我们可以制定更详细的内容。

最新更新