我正在使用Databricks笔记本,并将其与GitHub同步。我们是 2 名成员,在 Github 存储库中的 2 个不同分支上工作。当我们在该笔记本上运行 Azure 数据工厂活动时,它运行的是该笔记本的最新版本。
那么将 GitHub 作为版本控制的目的是什么,因为我们在从外部执行时无法控制笔记本版本。
如果许多开发人员提交他们的更改,但在 EOD 中,我们需要执行最稳定的主分支更改怎么办?
Databricks notebook 不会从 git 重新加载。 您需要在个人文件夹中制作笔记本的副本,开发并提交到 git 功能分支。 将请求拉入主分支后,需要从 git (重新(部署笔记本。
运行代码的笔记本不应更改,而只能更改个人副本。
我们实际上并没有在数据砖上使用整个 git 同步,而是使用 databricks-cli 的 export_dir/import_dir 功能。这样,我们可以更好地控制导入的内容以及导入时间。而且,您可以在多个笔记本上进行提交(因为一个功能通常会跨多个笔记本(。
希望这有所帮助。