大家好我正在制作一个web应用程序,可以从特定网站抓取大量页面,我启动了我的crawler4j软件,深度和页面都没有限制,但由于互联网连接,它突然停止了。现在我想继续爬那个网站,在考虑到我有最后一页的深度之前,不要获取我访问过的网址。
注意:我想要一些方法,不要用我将获取的url检查我存储的url,因为我不想向这个网站发送太多请求。
**谢谢**☺
您可以通过启用此功能来使用crawler4j
的"可恢复"爬网
crawlConfig.setResumableCrawling(true);
在给定的配置中。请参阅此处的crawler4j
文档。