在多台计算机上运行crawler4j |不同的实例|根文件夹锁定



我试图通过使用crawler4j实现一个爬虫。运行正常,直到:

  1. 我只运行它的一个副本。
  2. 不重启,连续运行

如果我重新启动爬虫,收集的url不是唯一的。这是因为,爬虫锁定根文件夹(存储中间爬虫数据&作为参数传递)。爬虫重启时,删除根数据文件夹的内容

是否可以:?

  1. 防止根数据文件夹锁定。(所以,我可以运行多个副本的爬虫一次。)
  2. 重启后不删除根数据文件夹的内容。(这样我可以在停止后恢复爬虫)

您可以尝试使用:

更改爬虫的配置
crawlConfig.setResumableCrawling(true); 

controller.java类。

你可以点击这个链接查看可恢复爬行

相关内容

  • 没有找到相关文章

最新更新