在DataBricks上安装私有GitHub存储库



我正在Azure Databricks作业上运行Pythonwheels。其中一个wheel从GitHub导入私有存储库。在Databricks集群上安装wheel失败,因为在Databricks上没有SSH。

为Databricks环境提供SSH私钥的最优雅方式是什么?

这里是在databricks上安装Git repo的示例过程。

使用类似pip的工具安装车轮。如果这是为PyPI上托管的项目创建的,那么就让工具来发现和下载文件。

pip install wheel

然后,您可以告诉pip安装该项目(如果可用,它会下载轮子(,或者直接下载轮子文件:

pip install project_name  # discover, download and install
pip install wheel_file.whl  # directly install the wheel

wheel模块一旦安装,也可以从命令行运行,您可以使用它来安装已经下载的轮子:

python -m wheel install wheel_file.whl

另请参阅https://wheel.readthedocs.io/en/stable/

为Databricks环境提供SSH私钥的方法。

SSH进入Spark驱动程序:

打开群集配置页面。

单击高级选项。

单击SSH选项卡。

注意驱动程序主机名。

打开本地终端。

运行以下命令,替换主机名和私钥文件路径:

ssh ubuntu@<hostname> -p 2200 -i <private-key-file-path>

请参阅SSH上的文档:https://learn.microsoft.com/en-us/azure/databricks/kb/clusters/azure-ssh-cluster-driver-node

最新更新