我正在Azure Databricks作业上运行Pythonwheels
。其中一个wheel
从GitHub导入私有存储库。在Databricks集群上安装wheel
失败,因为在Databricks上没有SSH。
为Databricks环境提供SSH私钥的最优雅方式是什么?
这里是在databricks上安装Git repo的示例过程。
使用类似pip
的工具安装车轮。如果这是为PyPI上托管的项目创建的,那么就让工具来发现和下载文件。
pip install wheel
然后,您可以告诉pip
安装该项目(如果可用,它会下载轮子(,或者直接下载轮子文件:
pip install project_name # discover, download and install
pip install wheel_file.whl # directly install the wheel
wheel
模块一旦安装,也可以从命令行运行,您可以使用它来安装已经下载的轮子:
python -m wheel install wheel_file.whl
另请参阅https://wheel.readthedocs.io/en/stable/
为Databricks环境提供SSH私钥的方法。
SSH进入Spark驱动程序:
打开群集配置页面。
单击高级选项。
单击SSH选项卡。
注意驱动程序主机名。
打开本地终端。
运行以下命令,替换主机名和私钥文件路径:
ssh ubuntu@<hostname> -p 2200 -i <private-key-file-path>
请参阅SSH上的文档:https://learn.microsoft.com/en-us/azure/databricks/kb/clusters/azure-ssh-cluster-driver-node