使用 Perl LibXML 读取包含 html 标记的文本内容



如果我有以下XML:

<File id="MyTestApp/app/src/main/res/values/strings.xml">
    <Identifier id="page_title" isArray="0" isPlural="0">
        <EngTranslation eng_indx="0" goesWith="-1" index="0">My First App</EngTranslation>
        <Description index="0">Home page title</Description>
        <LangTranslation index="0">My First App</LangTranslation>
    </Identifier>
    <Identifier id="count" isArray="0" isPlural="0">
        <EngTranslation eng_indx="0" goesWith="-1" index="0">You have <b>%1$d</b> view(s)</EngTranslation>
        <Description index="0">Number of page views</Description>
        <LangTranslation index="0">You have <b>%1$d</b> view(s)</LangTranslation>
    </Identifier>     
</File>

我正在尝试读取"EngTranslation"文本值,并希望返回包括任何 HTML 标记的完整值。例如,我有以下内容:

my $parser = XML::LibXML->new;
my $dom = $parser->parse_file("test.xml") or die;
foreach my $file ($dom->findnodes('/File')) {
  print $file->getAttribute("id")."n";
  foreach my $identifier ($file->findnodes('./Identifier')) {
      print $identifier->getAttribute("id")."n";
      print encode('UTF-8',$identifier->findnodes('./EngTranslation')->get_node(1)->textContent."n");
      print encode('UTF-8',$identifier->findnodes('./Description')->get_node(1)->textContent."n");
      print encode('UTF-8',$identifier->findnodes('./LangTranslation')->get_node(1)->textContent."n");
  }
}

我得到的输出是:

MyTestApp/app/src/main/res/values/strings.xml
page_title
My First App
Home page title
My First App
count
You have %1$d view(s)
Number of page views
You have %1$d views

我希望得到的是:

MyTestApp/app/src/main/res/values/strings.xml
page_title
My First App
Home page title
My First App
count
You have <b>%1$d</b> view(s)
Number of page views
You have <b>%1$d</b> views

我只是用这个作为更复杂的情况的例子,希望它是有意义的。

谢谢!

这是一个相当猴子的修补解决方案,但它有效:

sub XML::LibXML::Node::innerXML{
  my ($self) = shift;
  join '', $self->childNodes();
}
…
say $identifier->findnodes('./Description')->get_node(1)->innerXML;

哦,如果编码成为问题,请使用toString方法,它是第一个参数处理编码。(我确实use open,但 xml 中没有超出范围的字符)。

如果你不喜欢猴子补丁。 您可以将 sub 更改为普通 sub 并提供参数,如下所示:

sub myInnerXML{
  my ($self) = shift;
  join '', map{$_->toString(1)} $self->childNodes();
}
…
say myInnerXML($identifier->findnodes('./Description')->get_node(1));

在源 XML 中,您需要将标记编码为实体或将该内容包装在 CDATA 部分中。

在XML中嵌入HTML的一个问题是HTML不一定是"格式良好的"。 例如,<br> 标记和 <img> 标记通常不跟有匹配的结束标记,如果没有结束标记,则在 XML 文档中无效,除非您对整个 HTML 字符串进行 XML 转义,例如:

<EngTranslation eng_indx="0" goesWith="-1" index="0">You have &lt;b&gt;%1$d&lt;/b&gt; view(s)</EngTranslation>

或者使用 CDATA 部分:

<EngTranslation eng_indx="0" goesWith="-1" index="0"><![CDATA[You have <b>%1$d</b> view(s)]]></EngTranslation>

但是,如果将 HTML 限制为始终格式正确,则可以使用 toString() 方法实现所需的目标。

如果在<EngTranslation>元素节点上调用toString(),则输出将包含<EngTranslation>...</EngTranslation>包装器标记。 因此,您需要在每个子节点上调用 toString() 并将结果连接在一起:

binmode(STDOUT, ':utf8');
foreach my $file ($dom->findnodes('/File')) {
    print $file->getAttribute("id")."n";
    foreach my $identifier ($file->findnodes('./Identifier')) {
        print $identifier->getAttribute("id")."n";
        my $html = join '', map { $_->toString } 
            $identifier->findnodes('./EngTranslation')->get_node(1)->childNodes;
        print $html."n";
        print $identifier->findnodes('./Description')->get_node(1)->textContent."n";
        print $identifier->findnodes('./LangTranslation')->get_node(1)->textContent."n";
    }
}

注意 我冒昧地使用 binmode 在输出文件句柄上设置 UTF8 编码,因此无需为每次打印调用编码。

最新更新