如何从github读取.txt文件到谷歌colab



我在github中有一个文件夹,其中包含文本文件,当我试图在Google colab中阅读以下代码时,我收到了错误

FileNotFoundError:[Erno 2]没有这样的文件或目录:'https://github.com/Jainu-s/urldata/tree/master/al?raw=true'

loc = 'https://github.com/Jainu-s/urldata/tree/master/al?raw=true'
#uploaded = files.upload()
os.chdir(loc)
filelist = os.listdir()
#print (len((pd.concat([pd.read_csv(item, names=[item[:-4]]) for item in filelist],axis=1))))
data = []
path = loc
files = [f for f in os.listdir(path) if os.path.isfile(f)]
for f in files:
with open(f,'r') as myfile:
data.append(myfile.read())

df = pd.DataFrame(data,columns=['Data'])
print (df.shape)
import base64
import requests
master = "https://raw.githubusercontent.com/Jainu-s/urldata/master/al/abescoldbeer.com.txt"
req = requests.get(master)
req = req.text
print(req)

通过这种方式,您可以使用for循环修改主字符串来读取所有文件

https://stackoverflow.com/a/38497199/10077354您可以参考此链接了解有关阅读github文件的信息。

您可以先使用将该目录中的所有文件下载到Colab

!npx degit Jainu-s/urldata/al -f

然后,您可以像本地文件一样循环它。

即使@korakot的响应是有效的,作为替代解决方案:

!git clone https://github.com/Jainu-s/urldata.git
path = '/content/urldata/al'
%cd urldata #go to the directory where git clone says *Cloning into*
for subdir, dirs, files in os.walk(path):
print(files)

最新更新