我正在在不同的数据键盘笔记本中转换数据(读取,转换和写入/从adls转换和写作)。我在DataFactory Pipeline中进行了这些笔记本:
Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook
我比DataFactory创建了与我的数据链球协议的连接,并将其添加到我的笔记本活动中。每当触发管道时,我想启动一个数据链球集群。总的来说,这一切都很好。但是Databricks为每个笔记本活动启动了一个工作集群,这需要太长,对我来说似乎不必要。
是否可以在管道开始时启动集群,然后在所有笔记本完成后将其关闭?还是有任何争论说每个活动都有工作集群是一件好事?
当前不可能使用同一作业集群进行多个笔记本活动。
两个替代选项:
- 使用交互式群集
- 使用Interactive cluster,(如果意识到成本)在开始时进行Web活动,以通过Azure Databricks REST端点启动群集,而在笔记本活动活动中,则在结尾处进行另一个Web活动,以删除(终止)群集通过REST ENDPOINT
不幸的是,这两个选项都使用交互式群集 - 与作业簇。
也可能有解决方法。您可以创建和触发"主"。带有ADF的作业群集的Databricks笔记本,它将用dbutils.notebook.run()命令一个适当的参数调用您的笔记本。
以这种方式,您将获得工作集群的成本节省,并且也将立即终止。
请参阅" https://towardsdataSciencion.com/building-a-dynamic-data-pipeline-with-databricks-and-databricks-and-azure-data-factory-5460ce423df5" quot; quot;在本文中 - >https://towardsdatascience.com/building-a-dynamic-data-pipeline-with-databricks-and-azure-data-factory-5460ce423df5