为什么xpath删除html特殊字符



为什么这个

$html = '<a href="/browse/product.do?cid=1&amp;vid=1&amp;pid=1" class="productItemName">what is going on here</a>';
$dom = new DOMDocument();
$dom->loadhtml($html);
$xpath = new DOMXPath($dom);
$selectors['link'] = '//a/@href';
$links_nodeList = $xpath->query($selectors['link']);
foreach ($links_nodeList as $link) {
    $links[] = $link->nodeValue;
}
echo("<p>links</p>");
echo("<pre>");
print_r($links);
echo("</pre>");

输出

links
Array
(
    [0] => /browse/product.do?cid=1&vid=1&pid=1
)

而不是

links
Array
(
    [0] => /browse/product.do?cid=1&amp;vid=1&amp;pid=1
)

答案很简单

&amp;是表示XML文档中字符"&"的一种特殊方式。

这两个表示相同的字符

当"与"符号的转义形式输出为文本(而不是XML)时,将其显示为"&"是正确的。

正如@LarsH在评论中进一步阐述的

当您说loadhtml($html);时;,您将字符串解析为HTML,这意味着字符实体(如&amp;)被解释转换为它们所表示的字符(如&)。如果你想要一个字符串将被解释为&amp;,您需要退出"与"符号,例如&amp;amp;

最新更新