我经常收到一些没有像我期望的那样格式化的XML,并且正在寻找自动修复它的最佳方法。不幸的是,解决方案正在我的头上滑行。
我正在研究杂志内容,并且在两个特定元素方面遇到困难。
There are <subhead> elements, and <body> elements. Even though the subhead element should always be on it's own, sometimes the proofer will accidentally nest it with a <body> node.
<subhead> nodes should be formatted as their own paragraph, wrapped in <p> and <strong> tags.
<body> nodes should just be wrapped in <p> tags.
So I could get either:
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
or
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
I would like either scenario to output as:
<p><strong>Dogs</strong></p>
<p>Dogs do not like cats.</p>
目前,我的代码看起来像..
<xsl:for-each select="//default:textObject/default:text/*">
<xsl:for-each select="./*">
<xsl:choose>
<xsl:when test="@name='subhead'">
<p><strong>
<xsl:apply-templates select="node()"/>
</strong></p>
</xsl:when>
<xsl:when test="@name='body'">
<p>
<xsl:apply-templates select="node()"/>
</p>
</xsl:when>
...
</xsl:choose>
</xsl:for-each>
</xsl:for-each>
如何相应地调整以解决此问题?
谢谢。
通常不建议尝试为不可预测的传入数据结构编写 XSLT 代码。如果发生其他嵌套错误怎么办?您的时间最好花在添加一层验证上。在最简单的形式中,这可能只是一个DTD/模式表,校对者必须通过它运行他们的XML。
尽管如此,要回答您的问题,请尝试此操作。我假设每个body
/subhead
配对都在一个公共元素(item
)内,但你没有说。(否则,subhead
标签本身在哪里,你怎么知道哪个subhead
与哪个body
相关 - 它总是前面/后面的兄弟姐妹吗?
.XML
<root>
<item>
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
</item>
<item>
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
</item>
</root>
XSL:
<!-- root and static content -->
<xsl:template match="/">
<xsl:apply-templates select='root/item/body' />
</xsl:template>
<!-- iteration content - subhead/body pairings (matching 'body' nodes) -->
<xsl:template match='body'>
<p><strong><xsl:value-of select='parent::*/subhead | subhead' /></strong></p>
<p><xsl:value-of select='text()' /></p>
</xsl:template>
您可以在此 XMLPlayground 会话中运行它。
这个简短而简单的完整转换:
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" />
<xsl:strip-space elements="*"/>
<xsl:template match="/*">
<xsl:apply-templates select="(subhead | body/subhead)/text()"/>
<xsl:text>
</xsl:text>
<xsl:apply-templates select="body/text()"/>
</xsl:template>
<xsl:template match="subhead/text()">
<p><strong><xsl:value-of select="."/></strong></p>
</xsl:template>
<xsl:template match="body/text()">
<p><xsl:value-of select="."/></p>
</xsl:template>
</xsl:stylesheet>
应用于以下 XML 文档时:
<t>
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
</t>
产生所需的结果:
<p><strong>Dogs</strong></p>
<p>Dogs do not like cats.</p>
将相同的转换应用于第二种类型的文档时:
<t>
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
</t>
再次产生相同的所需正确结果:
<p><strong>Dogs</strong></p>
<p> Dogs do not like cats.</p>
外植:
特定模板的结果在输出中的显示顺序不取决于匹配节点的顺序,而是取决于导致选择模板执行的相应<xsl:apply-templates>
指令的顺序。
请注意:
如果文档的结构确实未知,只需在上面的代码中替换:
<xsl:apply-templates select="(subhead | body/subhead)/text()"/>
跟:
<xsl:apply-templates select="(//subhead | //body/subhead)/text()"/>