我将在我的代码中编写一个新功能,以内存/cpu高效的方式处理一些XML数据。它将主要分析来自文件、流、字节数组等的数据,因此SAXParser似乎符合上述所有要求。
不幸的是,这个新功能还需要分析一些由旧代码生成的XML数据,这些旧代码使用DOM解决方案并返回Document类。
当然,我可以将DOM文档保存到文件/流/字节数组等,然后使用SAXParser来处理它,但是这样的解决方案将需要额外的内存空间来保存数据,这从数据处理的角度来看是完全不必要的。
因此,我正在寻找某种DOM文档爬虫,它读取已经存在的DOM数据,但使用SAX处理程序来处理它,这将允许我在自定义SAX处理程序中只实现一次基本处理逻辑,并且还可以使用任何类型的输入数据。
你遇到过这样的事情吗?
使用身份转换将XML从DOM树提供给SAX处理程序:
TransformerFactory transformerFactory = TransformerFactory.newInstance();
Transformer transformer = transformerFactory.newTransformer();
transformer.transform(new DOMSource(document),
new SAXResult(handler));
DOMSource
构造函数接受一个Node
,所以你可以只给它一个DOM文档的一部分,即片段。
SAXResult
构造函数接受通常在setContentHandler(...)
调用中给XMLReader
的ContentHandler
。