Nutch -获取新发现的域

我们使用nutch 1.6来抓取网页。根据nutch配置，应该提供种子列表和域url过滤器来遍历指定的域。然而，我们想要获取新发现的url，如果他们的扩展是，让我们说，co.uk(仅适用于此扩展)我们可以通过添加新发现的url的域到文件-或db，无论什么-，停止爬虫，更新域名url过滤器和种子列表，然后重新启动它来管理它。但是我们如何在不停止爬虫的情况下动态地做到这一点呢?

提前感谢。

p。S: co.uk域名扩展只是一个例子，我们也可以添加多个扩展来允许。

明白了

您可以在domain-urlfilter.txt中添加后缀，如"gov.uk"作为DomainURLFilter源代码的186-189行:

  if (domainSet.contains(suffix) || domainSet.contains(domain)
    || domainSet.contains(host)) {
    return url;
  }

它检查后缀，域名和主机。

另外，你可以把域名url保存在HBase表中，通过你自己的过滤器插件来管理它们，而不是使用DomainURLFilter.

相关内容

最新更新

热门标签：