你可以添加Databricks作业到Git仓库吗?



我正在尝试将databricks作业添加到git repo。我看到你可以在作业中从git仓库中运行笔记本,但我不知道作业本身是否可以添加到git仓库中。

你需要的功能是在预览和最近已作出GA。它也被Terraform Provider支持

见https://databricks.com/blog/2022/06/21/build-reliable-production-data-and-ml-pipelines-with-git-support-for-databricks-workflows.html

仍然无法"原生地";将作业定义保存到Git中,但它可以通过不同的方式完成:

  • 使用Databricks Terraform提供商的databricks_job资源(doc)。使用它的最大优点是它允许处理对其他资源的依赖,比如现有集群、DLT管道等。但这需要熟悉Terraform。您还可以使用Terraform export功能(doc)导出具有依赖关系的现有作业,使用-match选项导出所选作业。
  • Using Databricks Asset Bundles——这是新Databricks CLI的相对较新的功能,允许使用YAML文件描述作业和资源,然后部署到工作空间。请看本产品导览& &;有关DAIS 2023的详细介绍。
  • 从UI导出Databricks作业定义为JSON,然后使用该JSON定义与Databricks CLI或REST API。当您需要将具有依赖关系的作业部署到其他资源时,此方法最复杂,因此在您知道自己在做什么之前,不建议使用此方法。

最新更新