Nutch -获取新发现的域



我们使用nutch 1.6来抓取网页。根据nutch配置,应该提供种子列表和域url过滤器来遍历指定的域。然而,我们想要获取新发现的url,如果他们的扩展是,让我们说,co.uk(仅适用于此扩展)我们可以通过添加新发现的url的域到文件-或db,无论什么-,停止爬虫,更新域名url过滤器和种子列表,然后重新启动它来管理它。但是我们如何在不停止爬虫的情况下动态地做到这一点呢?

提前感谢。

p。S: co.uk域名扩展只是一个例子,我们也可以添加多个扩展来允许。

明白了

您可以在domain-urlfilter.txt中添加后缀,如"gov.uk"作为DomainURLFilter源代码的186-189行:

  if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀,域名和主机。

另外,你可以把域名url保存在HBase表中,通过你自己的过滤器插件来管理它们,而不是使用DomainURLFilter.

最新更新