我们每天都有大量的CSV
文件到达专用驱动器(例如D:(。然后,一组SSIS
包将拾取这些文件,对它们执行转换,然后将结果摄取到数据库中的几个表中。日志记录和错误处理也存在。
当我们正在试验一种可能的云移动(特别是Azure
(时,我们一开始就选择了一种提升和转移的场景。在这种方法中,我们只需将相同的SSIS
包部署到Azure SQL Server
中,创建Azure Data Factory
ADF
管道,然后从那里运行这些包。
我们想重新考虑我们的解决方案,用Azure
的云原生服务取代SSIS
包。
我的问题是:
-
根据第一段中解释的场景,这是否被视为批处理场景?
Azure Batch Service
是否适合作为潜在的服务使用?或者将Azure DataBricks
与ADF
一起使用会更有效? -
以下是解决方案环境和内部部署的主要任务。我想比较一下我们在
SSIS
中所做的和Azure
世界中的对应产品:
项目 | ||
---|---|---|
接收CSV文件的存储 | ||
CSV文件处理 | >SSIS->数据流->编写组件脚本||
摄入到目标表 | SSIS->数据流->OLE DB目标 | |
自定义脚本 | 脚本任务&编写组件脚本 | |
数据库 |
您可以将Azure数据工厂用于ETL部分。(事实上,它甚至支持您现有的SSIS包(。
在这种情况下,我不认为Azure Batch是正确的选择,但你可以使用它。Azure Batch更用于密集的计算过程,例如渲染3d艺术
Azure Synapse Analytics可能非常适合这一点。您可以支持单个产品(如SQL DB、Azure Data Factory等(,但使用Synapse:可以更容易地在组件之间进行集成
Azure World