我们如何访问azure databricks笔记本中的github repo中的文件



我们有一个需求,我们需要访问Azure Databricks笔记本中托管在github私有回购上的文件。目前我们正在使用curl命令使用用户的个人访问令牌。

curl -H 'Authorization: token INSERTACCESSTOKENHERE' -H 'Accept: 
application/vnd.github.v3.raw' -O -L 
https://api.github.com/repos/*owner*/*repo*/contents/*path*

是否有一种方法可以避免使用PAT而使用部署键或其他东西?

从2021年夏天开始,databricks引入了git repos功能的集成。更多信息在这里:https://learn.microsoft.com/en-us/azure/databricks/repos

如果你在repo中添加了你的文件(excel, json等),那么你可以使用一个相对路径来访问它并读取它。

pd.read_excel("./test_data.xlsx")

请注意,您需要使用databricks版本8.4+(或9.1+?)

您还可以通过执行以下命令来测试当前工作目录是什么。os.getcwd()

如果你已经正确地集成了repo,那么你的结果应该是这样的:

/Workspace/Repos/george@myemail.com/REPO_FOLDER/analysis

,否则将是这样的:/databricks/driver

集成Git和azure数据库

这个文档展示了如何集成Git和azure数据库

步骤1:获取文件的原始URL。

步骤2:使用wget访问文件:

wget https://github.com/githubtraining/hellogitworld/blob/master/resources/labels.properties

最新更新