使用可点击链接的网络抓取 PHP



我正在尝试做一个有趣的小项目,我基本上从新闻网站获取头条新闻,使用 php 将其抓取/镜像到其他站点,然后让新站点上显示的数据实际上是指向原始站点的可点击链接。 如果这有点令人困惑,让我举一个例子。

http://www.wilsonschlamme.com/test.php 在那里,我正在使用 php 从 antrimreview(密歇根本地新闻网站)中抓取包含在 span=class>

*我想知道的是,我不知道该怎么做,实际上是将这些在我的测试网站上重新显示的标题作为可点击的链接。换句话说,保留这些标题的<>,其中包含指向完整文章的可点击链接。换句话说,在安特里姆网站上,这些标题是指向整页的可点击链接。目前在我的测试网站上镜像时,显然没有链接,因为没有任何东西抓取数据。

有谁知道这是怎么做到的?或者有什么想法吗?真的很感激,这是一个有趣的项目,只是缺乏如何完成它的知识。

哦,我知道口袋妖怪的参考资料在下面很糟糕。这是因为我正在使用最初来自某处教程的代码,哈哈:

<?php
$html = file_get_contents('http://www.antrimreview.net/'); //get the html 
returned from the following url
$pokemon_doc = new DOMDocument();
libxml_use_internal_errors(TRUE); //disable libxml errors
if(!empty($html)){ //if any html is actually returned
$pokemon_doc->loadHTML($html);
libxml_clear_errors(); //remove errors for yucky html
$pokemon_xpath = new DOMXPath($pokemon_doc);
//get all the h2's with an id
$pokemon_row = $pokemon_xpath->query('//span[@class]');
if($pokemon_row->length > 0){
foreach($pokemon_row as $row){
echo $row->nodeValue . "<br/>";
}
}
}
?>

实际上,我发现仅使用CNN rss提要很简单,例如,使用冲浪波来生成代码。 无论如何,谢谢你的建议。

最新更新