如何使用 pandas 从私有 GitHub 存储库读取 Excel 数据帧?



我有一个使用 django 制作的工作网站。我有一个私有的 GitHub 存储库,其中有 excel 文件,我想使用pandas read_excel阅读并在网站上使用。我将存储库设为私有的原因是因为数据是特定于公司的。

1) 如何使用熊猫从私有 GitHub 存储库读取 excel 文件?是否需要设置个人访问令牌?

2) 用户登录我的网站后,有没有办法在他们导航以尝试查看其公司特定的数据帧时需要进一步的密码?例如,"用户 A"将只能访问"数据帧 A","用户 B"将只能访问"数据帧 B"。

在我的本地系统上,以下代码可以读取数据帧:

file_path = 'C:/Users/james/Desktop/projects/path/to/excel/file
df = pd.read_excel(file_path)

对于我的实时网站,产生问题的代码是:

URL_path = 'https://github.com/path/to/excel/file/in/private/repository
df = pd.read_excel(URL_path)

我能够读取本地计算机上的 excel 文件,但是当我尝试从我的私人 github 读入时,我收到以下错误,即使我知道我使用的是正确的 url:

urllib.error.HTTPError: HTTP Error 404: Not Found

我通过注销我的 github 帐户并尝试访问包含我的 excel 的 github 网址来验证这一点,由于我没有登录,它会将我带到一个404 not found页面。当我登录到我的github帐户时,相同的URL会将我带到正确的页面。

如果存储库设置为私有,则应该需要使用 github 中的 PAO(人员访问令牌)。

然后,您需要收集指向数据的原始 url 链接,并确保在使用 pandas 读取数据之前正确解码它。

在这里查看本教程;它使用的是csv,但想法本质上是相同的:

https://medium.com/towards-entrepreneurship/importing-a-csv-file-from-github-in-a-jupyter-notebook-e2c28e7e74a5

最新更新