将 URL 限制为仅种子 URL 域爬虫4j

我希望crawler4j以仅属于种子域的方式访问页面。种子中有多个域。我该怎么做？

假设我正在添加种子 URL：

现在我开始抓取，但我希望我的爬虫只访问上述三个域中的页面（就像shouldVisit()一样）。显然有外部链接，但我希望我的爬虫仅限于这些域。子域，子文件夹是可以的，但不能在这些域之外。

代表OP发布：

在这里得到了解决方案：http://code.google.com/p/crawler4j/issues/detail?id=94#c1

如果您尝试将爬网程序限制为仅包含与种子网址具有相同域的网址，则：

相关内容