当我重新启动爬网程序时,如何在达到最后一个深度后恢复爬网



大家好我正在制作一个web应用程序,可以从特定网站抓取大量页面,我启动了我的crawler4j软件,深度和页面都没有限制,但由于互联网连接,它突然停止了。现在我想继续爬那个网站,在考虑到我有最后一页的深度之前,不要获取我访问过的网址。

注意:我想要一些方法,不要用我将获取的url检查我存储的url,因为我不想向这个网站发送太多请求。

**谢谢**☺

您可以通过启用此功能来使用crawler4j的"可恢复"爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅此处的crawler4j文档。

相关内容

  • 没有找到相关文章

最新更新