在Azure中设计数据处理解决方案



我们每天都有大量的CSV文件到达专用驱动器(例如D:(。然后,一组SSIS包将拾取这些文件,对它们执行转换,然后将结果摄取到数据库中的几个表中。日志记录和错误处理也存在。

当我们正在试验一种可能的云移动(特别是Azure(时,我们一开始就选择了一种提升和转移的场景。在这种方法中,我们只需将相同的SSIS包部署到Azure SQL Server中,创建Azure Data FactoryADF管道,然后从那里运行这些包。

我们想重新考虑我们的解决方案,用Azure的云原生服务取代SSIS包。

我的问题是:

  1. 根据第一段中解释的场景,这是否被视为批处理场景?Azure Batch Service是否适合作为潜在的服务使用?或者将Azure DataBricksADF一起使用会更有效?

  2. 以下是解决方案环境和内部部署的主要任务。我想比较一下我们在SSIS中所做的和Azure世界中的对应产品:

>SSIS->数据流->编写组件脚本
项目
接收CSV文件的存储
CSV文件处理
摄入到目标表 SSIS->数据流->OLE DB目标
自定义脚本 脚本任务&编写组件脚本
数据库

您可以将Azure数据工厂用于ETL部分。(事实上,它甚至支持您现有的SSIS包(。

在这种情况下,我不认为Azure Batch是正确的选择,但你可以使用它。Azure Batch更用于密集的计算过程,例如渲染3d艺术

Azure Synapse Analytics可能非常适合这一点。您可以支持单个产品(如SQL DB、Azure Data Factory等(,但使用Synapse:可以更容易地在组件之间进行集成

Azure World接收CSV文件的存储普通磁盘驱动器D:\Azure Data Lake Gen 2CSV文件处理>SSIS->数据流->脚本组件Polybase摄入到目标表SSIS->数据流->OLE DB目标CTAS自定义脚本脚本任务&脚本组件Synapse笔记本数据库QL Server专用SQL池

最新更新