用于剥离标记的 nodeValue 属性的可靠性如何,它与 strip_tags() 相比如何


<?php
function walkDOM($node)
{
    if (! isset($node->childNodes))
        return;
    for ($i = 0; $i < $node->childNodes->length; $i++) {
        $childNode = $node->childNodes->item($i);
        $childNodeName = $childNode->nodeName;
        echo $childNode->nodeName . " - " . $childNode->nodeType . 
             " - "" . $childNode->nodeValue . ""n";
        walkDOM($childNode);
    }
}
function processHTML($s)
{
    $doc = new DOMDocument('1.0', 'UTF-8');
    $success = $doc->loadHTML($s);
    if (! $success) {
        echo "Load HTML failed.n";
        exit(1);
    }
    echo "Loaded HTML: " . $doc->saveHTML() . "n";
    walkDOM($doc);
}
$s = '<div>hello, <p>world<big>!</big></p></div>';
processHTML($s);
?>

输出:

Loaded HTML: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div>hello, <p>world<big>!</big></p></div></body></html>
html - 10 - ""
html - 1 - "hello, world!"
body - 1 - "hello, world!"
div - 1 - "hello, world!"
#text - 3 - "hello, "
p - 1 - "world!"
#text - 3 - "world"
big - 1 - "!"
#text - 3 - "!"

从上面的代码和输出中,我们可以看到,当我们访问任何DOMNode的属性nodeValue我们都会得到它的内部 HTML,并去除所有标签。我可以使用它来过滤掉所有标签,如下所示:

$s = '<div>hello, <p>world<big>!</big></p></div>';
$doc = new DOMDocument('1.0', 'UTF-8');
$doc->loadHTML($s);
echo $doc->childNodes->item(1)->nodeValue . "n";

输出:

hello, world!

但我也可以使用 strip_tags 来做到这一点:

$s = '<div>hello, <p>world<big>!</big></p></div>';
echo strip_tags($s) . "n";

我有两个问题:

  1. 我将来是否可以依靠nodeValue属性的这种行为来剥离标签或做任何其他我能想象到的事情。有什么隐藏的惊喜吗?
  2. 使用 nodeValue 去除标签
  3. 与使用 strip_tags() 去除标签有何不同?

如果你只是想剥离标签,那么复杂吗?我认为使用 strip_tags() 函数更快、更好。此外,可能需要第二个参数来指定不应剥离的标记。

最新更新