Colab的生产率:直接从网络加载(例如:Kaggle)数据库还是将它们上传到colab目录,然后提取它们?



我试图寻找在协作中处理大型数据文件的最快方法。我开始想,是直接从网站(例如Kaggle)上传它们更好,还是将它们上传到colab自己的目录并从那里使用它们。我能够做到后者,但是当文件开始解压缩时,系统突然停止工作并崩溃了。我又试了一次,下一次我等了更久,直到所有的东西都被解开。然而,在第二步时,系统又崩溃了。

你能建议使用(大型)数据集而不使系统崩溃的最佳方法吗?

我使用的代码:

1)

首先,我从Kaggle复制了一个json文件到colab的主目录。

from google.colab import drive
drive.mount('/content/drive')
! pip install kaggle
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
! kaggle competitions download forest-cover-type-prediction
  • 之后,我尝试解压缩从Kaggle下载到Colab目录下的数据文件

    ! mkdir unzipped
    ! unzip train.csv.zip -d unzipped
    ! unzip test.csv.zip -d unzipped
    
  • ,然后从csv

    中读取数据
    import numpy as np
    import pandas as pd
    train = pd.read_csv("/content/unzipped/train.csv")
    test = pd.read_csv("/content/unzipped/test.csv")
    X = train.to_numpy()[100000:5000000,0:4].astype(float)
    Y = train.to_numpy()[100000:5000000,4].astype(int).flatten()
    

    问题:如何直接从硬盘上传,哪种方法更快?

    尝试从Kaggle的帐户选项卡获取API令牌。然后将其上传到google colab中,并尝试使用以下代码初始化Kaggle库

    ! pip install kaggle
    ! mkdir ~/.kaggle
    ! cp kaggle.json ~/.kaggle/
    ! chmod 600 ~/.kaggle/kaggle.json
    

    设置完成后,使用下面的语法下载数据集

    ! kaggle datasets download <name-of-dataset>
    

    更多详细工作参考请点击这里

    相关内容

    • 没有找到相关文章

    最新更新