PHP:从使用 div 内的正则表达式 h2 标签的页面file_get_contents



当用户在下面键入 id 时,这曾经可以很好地从某个网页中获取存在于div 标签中的某个网页的文本:

function get_text($id) {
$result = file_get_contents('www.site.net/.$id.'');
$regex = '/<div class="x">([^<]*)</div>/';
if (preg_match($regex, $result, $matches) && !empty($matches[1])) {   
return $matches[1]; 
} else {
return 'N/A';
}
}

现在文本更难获取,因为它位于此处:

<div class="X2">
<h2 style="font-family: 'Pacifico', cursive;">TEXT</h2>
</div>

我尝试了div 和 h2,但它没有给我任何回报,请帮忙! 谢谢。

使用 PHP 的DOMDocument很容易解决:

$html = <<<'EOT'
<div class="X2">
<h2 style="font-family: 'Pacifico', cursive;">TEXT</h2>
</div>
EOT;
$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$div = $xpath->query('//div[contains(@class, "X2")]')->item(0);
echo $div->textContent;

输出:

TEXT

3v4l.org 演示

为了适应您的函数环境,这应该可以工作:

function get_text($id) {
$html = file_get_contents("www.site.net/$id");
$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXPath($doc);
$div = $xpath->query('//div[contains(@class, "X2")]');
if (count($div)) {
return $div->item(0)->textContent;
}
else {
return 'N/A';
}
}

相关内容

  • 没有找到相关文章

最新更新