我试图通过使用crawler4j实现一个爬虫。运行正常,直到:
- 我只运行它的一个副本。
- 不重启,连续运行
如果我重新启动爬虫,收集的url不是唯一的。这是因为,爬虫锁定根文件夹(存储中间爬虫数据&作为参数传递)。爬虫重启时,删除根数据文件夹的内容
是否可以:?
- 防止根数据文件夹锁定。(所以,我可以运行多个副本的爬虫一次。)
- 重启后不删除根数据文件夹的内容。(这样我可以在停止后恢复爬虫)
您可以尝试使用:
更改爬虫的配置crawlConfig.setResumableCrawling(true);
在controller.java
类。
你可以点击这个链接查看可恢复爬行