我们有一个需求,我们需要访问Azure Databricks笔记本中托管在github私有回购上的文件。目前我们正在使用curl命令使用用户的个人访问令牌。
curl -H 'Authorization: token INSERTACCESSTOKENHERE' -H 'Accept:
application/vnd.github.v3.raw' -O -L
https://api.github.com/repos/*owner*/*repo*/contents/*path*
是否有一种方法可以避免使用PAT而使用部署键或其他东西?
从2021年夏天开始,databricks引入了git repos功能的集成。更多信息在这里:https://learn.microsoft.com/en-us/azure/databricks/repos
如果你在repo中添加了你的文件(excel, json等),那么你可以使用一个相对路径来访问它并读取它。
。pd.read_excel("./test_data.xlsx")
请注意,您需要使用databricks版本8.4+(或9.1+?)
您还可以通过执行以下命令来测试当前工作目录是什么。os.getcwd()
如果你已经正确地集成了repo,那么你的结果应该是这样的:
/Workspace/Repos/george@myemail.com/REPO_FOLDER/analysis
,否则将是这样的:/databricks/driver
集成Git和azure数据库
这个文档展示了如何集成Git和azure数据库
步骤1:获取文件的原始URL。
步骤2:使用wget
访问文件:
wget https://github.com/githubtraining/hellogitworld/blob/master/resources/labels.properties