如何在python中加载大型xml数据集文件



嗨,我正在用python做一个数据分析项目,我有一个大约2.8GB的XML文件,太大了,无法打开。我下载了EmEditor,它帮助我打开了文件。问题是,当我尝试在python谷歌合作程序中加载文件时,如下所示:

import xml.etree.ElementTree as ET
tree = ET.parse('dataset.xml')  //dataset.xml is the name of my file 
root = tree.getroot()

我得到的结果是不存在这样的文件或目录:"dataset.xml"。我的桌面上有我的dataset.xml文件,它可以使用EmEditor打开,这让我觉得它可以通过EmEditor编辑和加载,但我不知道。我将感谢您的帮助,帮助我在python中加载数据谷歌colab。

Google Colab在谷歌的计算机上远程运行,无法访问桌面上的文件。

要在Python中打开该文件,首先需要将该文件传输到您的colab实例。有多种方法可以做到这一点,您可以在这里找到它们:https://colab.research.google.com/notebooks/io.ipynb

最简单的可能是:

from google.colab import files
uploaded = files.upload()
for fn in uploaded.keys():
print('User uploaded file "{name}" with length {length} bytes'.format(
name=fn, length=len(uploaded[fn])))

尽管要记住,每次启动新的colab会话时,都需要重新部署该文件。这是因为谷歌希望在你不使用电脑的时候为别人使用电脑,从而清除电脑上的所有数据。

最新更新