我正在将XML文档转换为HTML。需要做的事情之一是删除名称空间,这不能在HTML中合法声明(除非它是根标记中的XHTML名称空间)。我发现了5-10年前的帖子,内容是关于使用XML::LibXML和LibXML2有多困难,但最近没有那么多。这里有一个例子:
use XML::LibXML;
use XML::LibXML::XPathContext;
use feature 'say';
my $xml = <<'__EOI__';
<myDoc>
<par xmlns:bar="www.bar.com">
<bar:foo/>
</par>
</myDoc>
__EOI__
my $parser = XML::LibXML->new();
my $doc = $parser->parse_string($xml);
my $bar_foo = do{
my $xpc = XML::LibXML::XPathContext->new($doc);
$xpc->registerNs('bar', 'www.bar.com');
${ $xpc->findnodes('//bar:foo') }[0];
};
$bar_foo->setNodeName('foo');
$bar_foo->setNamespace('','');
say $bar_foo->nodeName; #prints 'bar:foo'. Dang!
my @namespaces = $doc->findnodes('//namespace::*');
for my $ns (@namespaces){
# $ns->delete; #can't find any such method for namespaces
}
say $doc->toStringHTML;
在这段代码中,我尝试了一些不起作用的东西。首先,我尝试将bar:foo
元素的名称设置为不固定的foo
(文档中说该方法知道名称空间,但显然不知道)。然后我尝试将元素名称空间设置为null,但这也不起作用。最后,我在文档中查找了一种删除名称空间的方法。没有这样的运气。最后的输出字符串仍然包含我想要删除的所有内容(名称空间声明和前缀)。
有人有办法删除名称空间,将元素和属性设置为null名称空间吗?
这是我自己的体操答案。如果没有更好的方法,那就行了。我真希望有更好的方法。。。
replace_without_ns
方法只是复制没有名称空间的节点。相反,任何需要命名空间的子元素都会获得它们的声明。下面的代码将整个文档移动到空名称空间:
use strict;
use warnings;
use XML::LibXML;
my $xml = <<'__EOI__';
<myDoc xmlns="foo">
<par xmlns:bar="www.bar.com" foo="bar">
<bar:foo stuff="junk">
<baz bar:thing="stuff"/>
fooey
<boof/>
</bar:foo>
</par>
</myDoc>
__EOI__
my $parser = XML::LibXML->new();
my $doc = $parser->parse_string($xml);
# remove namespaces for the whole document
for my $el($doc->findnodes('//*')){
if($el->getNamespaces){
replace_without_ns($el);
}
}
# replaces the given element with an identical one without the namespace
# also does this with attributes
sub replace_without_ns {
my ($el) = @_;
# new element has same name, minus namespace
my $new = XML::LibXML::Element->new( $el->localname );
#copy attributes (minus namespace namespace)
for my $att($el->attributes){
if($att->nodeName !~ /xmlns(?::|$)/){
$new->setAttribute($att->localname, $att->value);
}
}
#move children
for my $child($el->childNodes){
$new->appendChild($child);
}
# if working with the root element, we have to set the new element
# to be the new root
my $doc = $el->ownerDocument;
if( $el->isSameNode($doc->documentElement) ){
$doc->setDocumentElement($new);
return;
}
#otherwise just paste the new element in place of the old element
$el->parentNode->insertAfter($new, $el);
$el->unbindNode;
return;
}
print $doc->toStringHTML;
下面是一个使用XSLT样式表的简单解决方案:
use strict;
use warnings;
use XML::LibXML;
use XML::LibXSLT;
my $xml = <<'__EOI__';
<myDoc xmlns="foo">
<par xmlns:bar="www.bar.com" foo="bar">
<bar:foo stuff="junk">
<baz bar:thing="stuff"/>
fooey
<boof/>
</bar:foo>
</par>
</myDoc>
__EOI__
my $parser = XML::LibXML->new();
my $doc = $parser->parse_string($xml);
my $xslt = XML::LibXSLT->new();
my $xsl_doc = $parser->parse_string(<<'XSL');
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:template match="*">
<xsl:element name="{local-name()}">
<xsl:apply-templates select="node()|@*"/>
</xsl:element>
</xsl:template>
<xsl:template match="@*">
<xsl:attribute name="{local-name()}">
<xsl:value-of select="."/>
</xsl:attribute>
</xsl:template>
</xsl:stylesheet>
XSL
my $stylesheet = $xslt->parse_stylesheet($xsl_doc);
my $result = $stylesheet->transform($doc);
print $stylesheet->output_as_bytes($result);
请注意,如果要复制注释或处理说明,则需要进一步调整。