我有几个外部数据API,可以使用一些Python脚本访问。我的脚本从本地服务器运行,转换数据,并将其存储在同一服务器上的SQL server数据库中。我想这是一个使用Python和T-SQL运行的基本ETL系统。
随着新的API的出现,该系统将有相当大的增长,并将需要更复杂的数据管道(例如,一些API数据将被拆分为多个表(。我认为这将是将系统转移到Azure的好时机(我们与微软高度集成,所以它必须是Azure!(。
我花了几天时间研究Azure产品,这些产品可以让我运行Python脚本从web API访问数据,并将处理后的数据存储在云数据库中。我正在寻求其他人在类似工作中使用过什么样的Azure产品的建议。目前看来我需要:
- Azure SQL数据库,用于保存各种同事可以访问的已处理数据
- Azure数据工厂来管理、记录和调度管道作业,并运行我的自定义Python脚本(这可能吗?(
- Azure Batch运行上述Python脚本,但我对此不确定
我想基本上制定一个提案,并开始考虑成本,但最好能听到有人做过类似的事情——我是走在正确的轨道上还是完全偏离了轨道?我应该呆在这里吗?提前谢谢。
- Azure SQL数据库、Azure SQL数据仓库适用于关系数据。如果你想使用NoSQL,你可以使用Azure Cosmos DB。如果你想使用文件来存储数据,你可以使用Azure data Lake
- 对于python脚本,您可以使用Azure数据工厂的自定义活动或数据块