如何在使用 SAX 进行分析时保留未绑定到对象的 XML 节点



我正在开发一个与蓝牙摄像头接口的安卓应用程序。对于存储在相机上的每个剪辑,我们将有关剪辑的一些字段(用户可以更改其中一些字段(存储在XML文件中。

目前,此应用程序是唯一将此xml数据写入设备的应用程序,但将来桌面应用程序或iPhone应用程序也可能在此处写入数据。我不想假设另一个应用程序也不能有其他字段(特别是如果他们有较新版本的应用程序,该版本添加了此版本尚不支持的新字段(。

因此,我想防止的情况是,我们在另一个应用程序中向此XML文件添加新字段,然后用户使用android应用程序,并且由于不知道其他字段而将其清除

因此,让我们举一个假设的例子:

<data>
  <title>My Title</title>
  <date>12/24/2012</date>
  <category>Blah</category>
</data>

从设备读取时,这将转换为如下所示的 Clip 对象(为简洁起见,进行了简化(

public class Clip {
  public String title, category;
  public Date date;
}

所以我使用 SAX 来解析数据并将其存储到剪辑中。我只是将字符存储在 StringBuilder 中,并在到达标题、类别和日期的结束元素时将它们写出来。

我意识到,当我将这些数据写回设备时,如果原始文档中有任何其他标签,它们就不会被写入,因为我只写出我知道的字段。

这让我觉得也许 SAX 是错误的选择,也许我应该使用 DOM 或其他东西,我可以更容易地写出最初存在的任何其他元素。

或者,我在想也许我的 Clip 类包含某种通用 XML 类型(可能是 DOM(的 ArrayList,并且在 startTag 中我检查该元素是否不是预定义的标签之一,如果是这样,直到我到达该标签的末尾,我存储整个结构(但在什么中?然后,在写回时,我将遍历所有其他标签并将它们写出到xml文件中(当然还有我知道的字段(

这是已知解决方案的常见问题吗?

--

更新 5/22/12 --

我没有提到在实际的xml根节点(实际上称为注释(中,我们使用的版本号已设置为1。短期内我要做的是要求我的应用程序支持的版本号是>= xml 数据的版本号。如果 xml 是一个更大的数字,我将尝试解析以回读,但会拒绝对模型的任何保存。我仍然对任何关于如何做到这一点的工作示例感兴趣。

顺便说一句,我想到了另一种应该很容易的解决方案。我想我可以使用 XPATH 来查找我知道的节点,并在数据更新时替换这些节点的内容。但是,我运行了一些基准测试,并且在解析到内存中时解析xml的开销是荒谬的。仅解析操作甚至没有进行任何查找就导致性能比 SAX 差 20 倍。使用 xpath 进行解析通常慢 30-50 倍,考虑到我在列表视图中解析这些内容,这真的很糟糕。所以我的想法是保留 SAX 将节点解析为剪辑,但将整个 XML 存储在 Clip 类的变量中(请记住,此 xml 很短,小于 2kb(。然后,当我去写回数据时,我可以使用 XPATH 替换我在原始 XML 中知道的节点。

不过仍然对任何其他解决方案感兴趣。我可能不会接受解决方案,除非它包含一些代码示例。

以下是使用 SAX 筛选器的方法:

  1. 当您使用 SAX 阅读文档时,您会记录所有事件。您记录它们并将它们进一步冒泡到下一个级别的 SAX 阅读器。您基本上将两层 SAX 读取器(使用 XMLFilter(堆叠在一起 - 一层将记录和中继,另一层是创建对象的当前 SAX 处理程序。
  2. 当您准备好将修改写回磁盘时,您会启动与编写器分层的记录的 SAX 事件,这些事件将覆盖您更改的那些值/节点。

我花了一些时间研究这个想法,它奏效了。它基本上归结为XMLFilter的正确链接。下面是单元测试的样子,您的代码将执行类似操作:

final SAXParserFactory factory = SAXParserFactory.newInstance();
final SAXParser parser = factory.newSAXParser();
final RecorderProxy recorder = new RecorderProxy(parser.getXMLReader());
final ClipHolder clipHolder = new ClipHolder(recorder);
clipHolder.parse(new InputSource(new StringReader(srcXml)));
assertTrue(recorder.hasRecordingToReplay());
final Clip clip = clipHolder.getClip();
assertNotNull(clip);
assertEquals(clip.title, "My Title");
assertEquals(clip.category, "Blah!");
assertEquals(clip.date, Clip.DATE_FORMAT.parse("12/24/2012"));
clip.title = "My Title Updated";
clip.category = "Something else";
final ClipSerializer serializer = new ClipSerializer(recorder);
serializer.setClip(clip);
final TransformerFactory xsltFactory = TransformerFactory.newInstance();
final Transformer t = xsltFactory.newTransformer();
final StringWriter outXmlBuffer = new StringWriter();
t.transform(new SAXSource(serializer, 
            new InputSource()), new StreamResult(outXmlBuffer));
assertEquals(targetXml, outXmlBuffer.getBuffer().toString());

重要的行是:

  • 您的 SAX 事件记录器环绕在 SAX 解析器周围
  • 您的Clip解析器(ClipHolder(缠绕在记录器周围
  • 当XML被解析时,记录器将记录所有内容,而你的ClipHolder只会查看它所知道的内容
  • 然后,您可以对clip对象执行任何需要执行的操作
  • 然后序列化程序缠绕在记录器周围(基本上是将其重新映射到自身(
  • 然后,您使用序列化程序,它将负责馈送记录的事件(委托给父级并将self注册为ContentHandler(,并覆盖它对clip对象的看法。

请在github上找到DVR代码和Clip测试。我希望它有所帮助。

附言:这不是一个通用的解决方案,整个记录>重放+覆盖概念在提供的实现中非常初级。基本上是一个例证。如果你的XML更复杂并且变得"毛茸茸"(例如,不同级别的相同元素名称等(,那么逻辑将需要增加。不过,这个概念将保持不变。

如果你想保留你没有"消费"的节点,SAX 可能不是最好的选择。您仍然可以使用某种"sax store"来保留 SAX 事件并重播它们(周围有一些这样的事情的实现(,但基于对象模型的 API 会更容易使用:您可以轻松地保留完整的对象模型并更新"您的"节点。

当然,您可以使用标准的 DOM,但您可能还需要考虑替代方案,这些替代方案可以更轻松地访问您将在任意数据模型中使用的特定节点。其中,JDOM(http://www.jdom.org/(和XOM(http://www.xom.nu/(是有趣的候选者。

如果您没有绑定到特定的 xml 架构,则应考虑执行以下操作:

<data>
    <element id="title">
        myTitle
    </element>
    <element id="date">
         18/05/2012
    </element>
    ...
</data>

然后将所有这些元素存储在单个 ArrayList 中。通过这种方式,您不会丢失信息,并且您仍然可以选择要显示 - 编辑 - 等的元素......

你对 XPath 比 SAX 解析慢 20 倍的假设是有缺陷的......SAX 解析只是一个低级分词器,您的处理逻辑将在其上构建......并且您的处理逻辑将需要额外的解析...XPath的性能与实现有很大关系...据我所知,vtd-xml 的 XPath 至少比一般的 DOM 快一个数量级,并且更适合重型 XML 处理。以下是一些指向更多参考的链接...

http://sdiwc.us/digitlib/journal_paper.php?paper=00000582.pdf

安卓 - XPath 评估非常慢

最新更新