小贝子编程

在多台计算机上运行crawler4j |不同的实例|根文件夹锁定

本文关键字：实例锁定根文件夹 crawler4j 计算机运行 java crawler4j
更新时间 : 2023-08-23
英文 : Running crawler4j on multiple computers | different instances | Root Folder Lock

我试图通过使用crawler4j实现一个爬虫。运行正常，直到:

如果我重新启动爬虫，收集的url不是唯一的。这是因为，爬虫锁定根文件夹(存储中间爬虫数据&作为参数传递)。爬虫重启时，删除根数据文件夹的内容

是否可以:?

您可以尝试使用:

更改爬虫的配置

crawlConfig.setResumableCrawling(true);

在controller.java类。

你可以点击这个链接查看可恢复爬行

相关内容