我没有使用Azure Synapse的经验,但我的理解是,它与SQL DWH中的Databricks、ADF、ADLS2和Hive相同,都在一个不同名称的工作区中。
我错了吗?
是的,在许多情况下,Azure Synapse和Databricks提供相同的大数据分析方法,但这些服务之间也没有什么区别。
随着Synapse现在的新功能,我们看到了一些与Databricks类似的功能(例如Spark、Delta(,这就提出了Synapse与Databrick相比如何以及何时使用哪个的问题。
-
是的,两者都有Spark,但…
-
Databricks
- 构建了一个专有的数据处理引擎(Databricks Runtime(在高度优化的Apache Spark版本上提供50x性能
- 已经支持Spark 3.0
- 允许用户选择启用GPU的群集,并在标准和高并发群集模式之间进行选择
-
Synapse
- 开源Apache Spark(因此不包括Databricks Runtime的所有功能(
- 内置了对.NET for Spark应用程序的支持
-
-
是的,两者都有笔记本
-
Synapse
-
Nteract笔记本
-
有笔记本的共同创作,但一个人需要在另一个人看到更改之前保存笔记本
-
没有自动版本控制
-
-
Databricks
-
Databricks笔记本
-
具有实时共同创作功能(两位作者都可以实时查看更改(自动版本控制
-
-
-
是,两者都可以从数据湖访问数据
-
Synapse
- 创建Synapse时,您可以选择一个数据湖主数据湖(可以直接从脚本和笔记本(
-
Databricks
- 在使用数据湖之前,您需要先安装它
-
-
是,两者都利用Delta
-
Synapse
- 三角洲湖是开源的
-
Databricks
- 有Databricks Delta,它建立在开源基础上,但提供了一些额外的优化
-
-
不,它们不一样
-
Synapse
-
既有传统的SQL引擎(适合传统的BI开发人员(,也有Spark引擎(适合数据科学家、分析师和工程师(
-
是数据仓库(即Synapse Analytics(+接口工具(即Synapte Studio(
-
-
Databricks
- 不是一个数据仓库工具,而是一个基于Spark的笔记本工具专注于Spark、Delta Engine、MLflow和MLR
-
-
不,他们不提供相同的开发人员体验
-
Synapse
-
目前仅通过Synapse Studio(而非本地IDE(为Spark开发提供开发人员体验
-
Synapse Studio笔记本中尚未集成Git
-
-
Databricks
- 在Databricks UI、DatabricksConnect(即从Visual Studio Code、Pycharm等进行远程连接(以及即将推出的Jupyter&Databricks中的RStudio UI
-
检查何时使用Synapse以及何时使用Databricks?。