搜索和使用 url 导入网页中的数据



我尝试获取外部网站的源代码来加载它们并使用此代码。我需要处理一些div的内容 - 由类或特定名称命名。

起初我以这种方式获取源代码

$url='http://www.example.com/site.html';
$page = file_get_contents($url);

现在我必须在$page中搜索一些div,例如搜索名称="test1"或class="test2"的div,我还必须寻找其他一些元素,例如具有特定名称或类的元素。

现在我可以使用str_replace、探索等来构建一个漫长的方法来做到这一点 - 也许有人可以告诉我如何以简单快捷的方式做到这一点?也许我可以将源代码加载到某种数组或其他东西中?

多谢

对我来说,只有file_get_contents有效 - file_get_html不会起作用!?

一个非常快速的基本示例,介绍如何使用 DOMDocumentDOMXPath 在页面中查找元素。你会想阅读我怀疑DOMDocumentDOMXPath的手册,可能会找到一个好的XPath备忘单~比如这样

$url='http://www.example.com/site.html';
$dom=new DOMDocument;
$dom->loadHTMLFile( $url );
$xp=new DOMXPath( $dom );
$query='//div[ contains( @class,"test" ) ]';
$col=$xp->query( $query );
if( $col && $col->length>0 ){
    foreach($col as $node)echo $node->nodeValue;
}

最新更新