使用增量 ID 抓取站点



>我有一个以下格式的网站:

http://www.domain.com/membership/member_zoom.php?value

值从 1000 开始,在 15,000 左右停止

以下是源的示例:

<h1>Member Information</h1>

<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

因此,我需要抓取会员信息和最后一个div 标签之间的所有内容,然后将 ID 值递增为 1,重复。但是,有很多死ID。我的刮板只是锤击网站,增加一次然后再次击中它。有没有更简单的方法?也许有某种方法可以构建故障保护?

尝试加载 id 并查看它是否存在之前,无法判断 id 是否存在。您需要找到链接列表,或从网站的其他部分抓取成员 ID。如果你做不到这一点,你只需要尝试每一个。

发出 HEAD 请求。跳过 404,对好的 GET 进行 GET。忘记read(1024),这将浪费您和他们的带宽。

最新更新