我试图寻找在协作中处理大型数据文件的最快方法。我开始想,是直接从网站(例如Kaggle)上传它们更好,还是将它们上传到colab自己的目录并从那里使用它们。我能够做到后者,但是当文件开始解压缩时,系统突然停止工作并崩溃了。我又试了一次,下一次我等了更久,直到所有的东西都被解开。然而,在第二步时,系统又崩溃了。
你能建议使用(大型)数据集而不使系统崩溃的最佳方法吗?
我使用的代码:
1)
首先,我从Kaggle复制了一个json文件到colab的主目录。
from google.colab import drive
drive.mount('/content/drive')
! pip install kaggle
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
! kaggle competitions download forest-cover-type-prediction
之后,我尝试解压缩从Kaggle下载到Colab目录下的数据文件
! mkdir unzipped
! unzip train.csv.zip -d unzipped
! unzip test.csv.zip -d unzipped
,然后从csv
中读取数据import numpy as np
import pandas as pd
train = pd.read_csv("/content/unzipped/train.csv")
test = pd.read_csv("/content/unzipped/test.csv")
X = train.to_numpy()[100000:5000000,0:4].astype(float)
Y = train.to_numpy()[100000:5000000,4].astype(int).flatten()
问题:如何直接从硬盘上传,哪种方法更快?
尝试从Kaggle的帐户选项卡获取API令牌。然后将其上传到google colab中,并尝试使用以下代码初始化Kaggle库
! pip install kaggle
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
设置完成后,使用下面的语法下载数据集
! kaggle datasets download <name-of-dataset>
更多详细工作参考请点击这里