Databricks + ADF + ADLS2 + Hive = Azure Synapse



我没有使用Azure Synapse的经验,但我的理解是,它与SQL DWH中的Databricks、ADF、ADLS2和Hive相同,都在一个不同名称的工作区中。

我错了吗?

是的,在许多情况下,Azure Synapse和Databricks提供相同的大数据分析方法,但这些服务之间也没有什么区别。

随着Synapse现在的新功能,我们看到了一些与Databricks类似的功能(例如Spark、Delta(,这就提出了Synapse与Databrick相比如何以及何时使用哪个的问题。

  • 是的,两者都有Spark,但…

    • Databricks

      • 构建了一个专有的数据处理引擎(Databricks Runtime(在高度优化的Apache Spark版本上提供50x性能
      • 已经支持Spark 3.0
      • 允许用户选择启用GPU的群集,并在标准和高并发群集模式之间进行选择
    • Synapse

      • 开源Apache Spark(因此不包括Databricks Runtime的所有功能(
      • 内置了对.NET for Spark应用程序的支持
  • 是的,两者都有笔记本

    • Synapse

      • Nteract笔记本

      • 有笔记本的共同创作,但一个人需要在另一个人看到更改之前保存笔记本

      • 没有自动版本控制

    • Databricks

      • Databricks笔记本

      • 具有实时共同创作功能(两位作者都可以实时查看更改(自动版本控制

  • 是,两者都可以从数据湖访问数据

    • Synapse

      • 创建Synapse时,您可以选择一个数据湖主数据湖(可以直接从脚本和笔记本(
    • Databricks

      • 在使用数据湖之前,您需要先安装它
  • 是,两者都利用Delta

    • Synapse

      • 三角洲湖是开源的
    • Databricks

      • 有Databricks Delta,它建立在开源基础上,但提供了一些额外的优化
  • 不,它们不一样

    • Synapse

      • 既有传统的SQL引擎(适合传统的BI开发人员(,也有Spark引擎(适合数据科学家、分析师和工程师(

      • 是数据仓库(即Synapse Analytics(+接口工具(即Synapte Studio(

    • Databricks

      • 不是一个数据仓库工具,而是一个基于Spark的笔记本工具专注于Spark、Delta Engine、MLflow和MLR
  • 不,他们不提供相同的开发人员体验

    • Synapse

      • 目前仅通过Synapse Studio(而非本地IDE(为Spark开发提供开发人员体验

      • Synapse Studio笔记本中尚未集成Git

    • Databricks

      • 在Databricks UI、DatabricksConnect(即从Visual Studio Code、Pycharm等进行远程连接(以及即将推出的Jupyter&Databricks中的RStudio UI

检查何时使用Synapse以及何时使用Databricks?。

最新更新