我使用以下PHP脚本来获得给定页面上的所有链接,但我试图获得网站上的所有链接作为一个整体。
<?php
function urlLooper($url){
$urlArray = array();
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$result = curl_exec($ch);
$regex='|<a.*?href="(.*?)"|';
preg_match_all($regex,$result,$parts);
$links=$parts[1];
foreach($links as $link){
array_push($urlArray, $link);
}
curl_close($ch);
foreach($urlArray as $value){
echo $value . '<br />';
}
}
$url = 'http://www.justfundraising.com/';
urlLooper($url);
?>
有没有办法使用cURL(或任何其他方法坦率地说)获得网站上的所有链接?如果你想知道的话,我可以访问服务器。
我的想法是从主页生成所有链接,然后通过相同的函数传递这些链接,以获得一个新的链接列表,忽略任何重复的链接。我想这样我就能拿到所有的页码了。
任何帮助将不胜感激!
正如@mario上面提到的,也许可以考虑使用phpQuery (http://code.google.com/p/phpquery/)。一旦下载了库并将其包含在页面上,下面是一些示例代码,展示了如何从传递给它的字符串中获得包含所有链接的数组(我刚刚在newDocument函数中硬编码了一个字符串作为示例):
$links = phpQuery::newDocument('<a href="test1.html">Test 1</a><a href="test2.html">Test 2</a><a href="test3.html">Test 3</a>')->find('a');
$array_links = array();
foreach($links as $r) {
$array_links[] = pq($r)->attr('href');
}
die("<pre>".print_r($array_links,true)."</pre>");
以上代码将返回:
Array
(
[0] => test1.html
[1] => test2.html
[2] => test3.html
)
curl只获取您指定的内容。它不会为您解析内容,也不会递归地获取由内容引用的"外部"资源。您必须自己在返回的HTML中查找,解析图像/脚本链接,并使用更多的curl调用来获取这些链接。
换句话说,您必须复制wget
,这可以归结为:只需使用wget。
我正在尝试使用simplehtmldom。但是代码在一段时间后崩溃了。实际上,我在这里尝试使用DFS方法,它可以在某一点溢出堆栈。
你可以使用cURL
检查这个方法下面是我的代码:<?php
traverse($home,0);
function traverse($url,$depth)
{
if($depth>1)return;
$html = file_get_html($url);
foreach($html->find('a') as $element)
{
$nurl = $element->href;
echo $nurl."<br>";
traverse($nurl,$depth+1);
}
}
?>