在Azure中设计数据处理解决方案

我们每天都有大量的CSV文件到达专用驱动器(例如D:(。然后，一组SSIS包将拾取这些文件，对它们执行转换，然后将结果摄取到数据库中的几个表中。日志记录和错误处理也存在。

当我们正在试验一种可能的云移动(特别是Azure(时，我们一开始就选择了一种提升和转移的场景。在这种方法中，我们只需将相同的SSIS包部署到Azure SQL Server中，创建Azure Data FactoryADF管道，然后从那里运行这些包。

我们想重新考虑我们的解决方案，用Azure的云原生服务取代SSIS包。

我的问题是：

根据第一段中解释的场景，这是否被视为批处理场景？Azure Batch Service是否适合作为潜在的服务使用？或者将Azure DataBricks与ADF一起使用会更有效？
以下是解决方案环境和内部部署的主要任务。我想比较一下我们在SSIS中所做的和Azure世界中的对应产品：

>SSIS->数据流->编写组件脚本

项目
接收CSV文件的存储
CSV文件处理
摄入到目标表	SSIS->数据流->OLE DB目标
自定义脚本	脚本任务&编写组件脚本
数据库

您可以将Azure数据工厂用于ETL部分。(事实上，它甚至支持您现有的SSIS包(。

在这种情况下，我不认为Azure Batch是正确的选择，但你可以使用它。Azure Batch更用于密集的计算过程，例如渲染3d艺术

Azure Synapse Analytics可能非常适合这一点。您可以支持单个产品(如SQL DB、Azure Data Factory等(，但使用Synapse:可以更容易地在组件之间进行集成

Azure World接收CSV文件的存储普通磁盘驱动器D:\Azure Data Lake Gen 2CSV文件处理>SSIS->数据流->脚本组件Polybase摄入到目标表SSIS->数据流->OLE DB目标CTAS自定义脚本脚本任务&脚本组件Synapse笔记本数据库QL Server专用SQL池

相关内容

最新更新

热门标签：