尝试解析 Python 中的大型 xml 文件 - 内存错误 - Trying to parse large xml file in Python

所以我是一个初学者'刮板'，没有一整卡车的编程经验。

我在Canopy环境中使用Python来抓取一些下载的XML文件，并使用xml.dom解析器来执行此操作。我只是想从第一个美国书目专利授权中抓取标签(这就是我使用[0](只是为了看看我想如何解析和存储整个数据集;而不是一次全部完成。XML 的摘录如下所示：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE us-patent-grant SYSTEM "us-patent-grant-v42-2006-08-23.dtd" [ ]>
<us-patent-grant lang="EN" dtd-version="v4.2 2006-08-23" file="USD0606726-20091229.XML" status="PRODUCTION" id="us-patent-grant" country="US" date-produced="20091214" date-publ="20091229">
<us-bibliographic-data-grant>
<publication-reference>
<document-id>
<country>US</country>
<doc-number>D0606726</doc-number>
<kind>S1</kind>
<date>20091229</date>
</document-id>
</publication-reference>
<application-reference appl-type="design">
<document-id>
<country>US</country>
<doc-number>29299001</doc-number>
<date>20071217</date>

到目前为止，我的代码如下所示：

from xml.dom import minidom
filename = "C:/Users/SMOLENSK/Documents/Inventor Research/xml_2009/ipg091229.xml"
f = open(filename, 'r')
doc = f.read()
f.close()
xmldata = '<root>' + doc + '</root>'
data = minidom.parse(xmldata)
US_Biblio = xmldata.getElementsByTagName("us-bibliographic-data-grant")[0]
pat_num = US_Biblio.getElementsByTagName("doc-number")[0]
dates = pat_num.getElementsByTagName("date")
for date in dates:
print(date)

现在，在代码完全运行后，我收到了一些有关内存错误的消息，但它只能运行一次，不幸的是，我无法记下到底发生了什么。由于数据负载高(仅此文件就有 460 万行(，操作每次都会崩溃，我无法复制错误。

有人可以看到代码有什么问题吗？我的代码在开始存储每个标签名称之前解析整个数据集，但是否有一种方法可以只解析一定数量？也许只是用第一组创建一个新的 xml 文件。

如果您想知道我用

绕过

外籍人士错误：第 xxx 行后的垃圾

我事先得到了。我知道我的编码技能并不惊人，所以希望我没有犯一个简单而恶心的编程错误。

尝试：

with open(filename, 'r') as f:
data = minidom.parse(f)

如果你真的需要标签，你可能需要弄乱一点，也许：

data = minidom.parse(itertools.chain('<root>', f, '</root>')

尝试解析 Python 中的大型 xml 文件 - 内存错误

相关内容

最新更新

热门标签：