如果我有以下XML:
<File id="MyTestApp/app/src/main/res/values/strings.xml"> <Identifier id="page_title" isArray="0" isPlural="0"> <EngTranslation eng_indx="0" goesWith="-1" index="0">My First App</EngTranslation> <Description index="0">Home page title</Description> <LangTranslation index="0">My First App</LangTranslation> </Identifier> <Identifier id="count" isArray="0" isPlural="0"> <EngTranslation eng_indx="0" goesWith="-1" index="0">You have <b>%1$d</b> view(s)</EngTranslation> <Description index="0">Number of page views</Description> <LangTranslation index="0">You have <b>%1$d</b> view(s)</LangTranslation> </Identifier> </File>
我正在尝试读取"EngTranslation"文本值,并希望返回包括任何 HTML 标记的完整值。例如,我有以下内容:
my $parser = XML::LibXML->new;
my $dom = $parser->parse_file("test.xml") or die;
foreach my $file ($dom->findnodes('/File')) {
print $file->getAttribute("id")."n";
foreach my $identifier ($file->findnodes('./Identifier')) {
print $identifier->getAttribute("id")."n";
print encode('UTF-8',$identifier->findnodes('./EngTranslation')->get_node(1)->textContent."n");
print encode('UTF-8',$identifier->findnodes('./Description')->get_node(1)->textContent."n");
print encode('UTF-8',$identifier->findnodes('./LangTranslation')->get_node(1)->textContent."n");
}
}
我得到的输出是:
MyTestApp/app/src/main/res/values/strings.xml
page_title
My First App
Home page title
My First App
count
You have %1$d view(s)
Number of page views
You have %1$d views
我希望得到的是:
MyTestApp/app/src/main/res/values/strings.xml
page_title
My First App
Home page title
My First App
count
You have <b>%1$d</b> view(s)
Number of page views
You have <b>%1$d</b> views
我只是用这个作为更复杂的情况的例子,希望它是有意义的。
谢谢!
这是一个相当猴子的修补解决方案,但它有效:
sub XML::LibXML::Node::innerXML{
my ($self) = shift;
join '', $self->childNodes();
}
…
say $identifier->findnodes('./Description')->get_node(1)->innerXML;
哦,如果编码成为问题,请使用toString
方法,它是第一个参数处理编码。(我确实use open
,但 xml 中没有超出范围的字符)。
如果你不喜欢猴子补丁。 您可以将 sub 更改为普通 sub 并提供参数,如下所示:
sub myInnerXML{
my ($self) = shift;
join '', map{$_->toString(1)} $self->childNodes();
}
…
say myInnerXML($identifier->findnodes('./Description')->get_node(1));
在源 XML 中,您需要将标记编码为实体或将该内容包装在 CDATA 部分中。
在XML中嵌入HTML的一个问题是HTML不一定是"格式良好的"。 例如,<br>
标记和 <img>
标记通常不跟有匹配的结束标记,如果没有结束标记,则在 XML 文档中无效,除非您对整个 HTML 字符串进行 XML 转义,例如:
<EngTranslation eng_indx="0" goesWith="-1" index="0">You have <b>%1$d</b> view(s)</EngTranslation>
或者使用 CDATA 部分:
<EngTranslation eng_indx="0" goesWith="-1" index="0"><![CDATA[You have <b>%1$d</b> view(s)]]></EngTranslation>
但是,如果将 HTML 限制为始终格式正确,则可以使用 toString()
方法实现所需的目标。
如果在<EngTranslation>
元素节点上调用toString()
,则输出将包含<EngTranslation>...</EngTranslation>
包装器标记。 因此,您需要在每个子节点上调用 toString()
并将结果连接在一起:
binmode(STDOUT, ':utf8');
foreach my $file ($dom->findnodes('/File')) {
print $file->getAttribute("id")."n";
foreach my $identifier ($file->findnodes('./Identifier')) {
print $identifier->getAttribute("id")."n";
my $html = join '', map { $_->toString }
$identifier->findnodes('./EngTranslation')->get_node(1)->childNodes;
print $html."n";
print $identifier->findnodes('./Description')->get_node(1)->textContent."n";
print $identifier->findnodes('./LangTranslation')->get_node(1)->textContent."n";
}
}
注意 我冒昧地使用 binmode 在输出文件句柄上设置 UTF8 编码,因此无需为每次打印调用编码。