哪个是更有效的编排机制,链接Databricks笔记本在一起或使用Apache气流?



数据的大小以tb为单位

我有多个Databricks笔记本,用于为每个维度表加载增量数据到Google BigQuery。

现在,我必须每两个小时执行一次数据加载,即运行这些笔记本。

下面哪一种方法更好:

  1. 创建一个主Databricks笔记本,并使用butils将上述Databricks笔记本的执行链化/并行化。

  2. 使用Google Composer (Apache Airflow的Databricks Operator)创建一个主DAG来远程编排这些笔记本。

当我有并行执行和顺序执行笔记本的用例时,我想知道哪种方法更好。

如果我能得到关于这个话题的建议或意见,我将非常感激,谢谢。

你为什么不能尝试一下数据块的工作呢?因此,您可以使用job来运行笔记本,无论是立即运行还是定期运行。

相关内容

最新更新