小贝子编程

当我重新启动爬网程序时，如何在达到最后一个深度后恢复爬网

本文关键字：最后一个深度恢复重新启动程序 java web-crawler crawler4j
更新时间 : 2023-09-18
英文 : How to resume crawling after last depth I reached when I restart my crawler?

大家好我正在制作一个web应用程序，可以从特定网站抓取大量页面，我启动了我的crawler4j软件，深度和页面都没有限制，但由于互联网连接，它突然停止了。现在我想继续爬那个网站，在考虑到我有最后一页的深度之前，不要获取我访问过的网址。

注意：我想要一些方法，不要用我将获取的url检查我存储的url，因为我不想向这个网站发送太多请求。

**谢谢**☺

您可以通过启用此功能来使用crawler4j的"可恢复"爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅此处的crawler4j文档。

最新更新

Google Cloud Project : Access Issues
Photoshop脚本文件名/后缀
当文件的内容(Flux<DataBuffer>)包装在另一个对象中时，无法使用Web客户端上传文件
如何在SQL Server中使用动态作业名杀死作业列表
CSS文件在React组件文件中不工作
如何在日历中添加具有编辑事件能力的人?
我的 Pip 安装已损坏，我不知道如何重新安装它 [MAC/OSX]
为圆环添加背景色
pandas dataframe检查特定位置中的值是否为NaN值
在python 3.8.2上使用pip下载selenium时出现语法错误
Visual Studio 2019企业版离线安装失败
python中小写和大写的排列
在aws实例中安装rhel中的jenkins时出错
在colab中使用python从谷歌驱动器读取图像
如何根据映射到染色体的读数将bam文件拆分为单独的bam
JUnit测试简单的GUI
r语言 - 使用针织从 rstudio 更改.pdf文档的章节(部分)的样式包装乳胶 "titlesec"
选择所有在jquery中选择的插件
如何在材料UI中设置未来时间<文本字段类型="日期时间-本地" />
ImageData在获取一个像素时是不同的
NVRTC编译什么时候应该产生一个CUBIN?
套接字的真正定义是什么?
尝试使用outlook自动从python脚本发送邮件
检查调用两个函数调用是否调用同一个函数?
如何从数组中选择指定索引以在交换情况下使用它
尽管在PHP中使用$_POST检查isset()，代码仍会执行
如何添加多个版本不兼容的弹性搜索数据源?
Vaultsharp ： System.AggregateException： '发生一个或多个错误。({"错误"：["路由'KV-v2/data'没有处理程序)
将excel公式转换为VBA宏
动画PNG图层和创建一个GIF在Javascript?

当我重新启动爬网程序时，如何在达到最后一个深度后恢复爬网

相关内容

最新更新

热门标签：