在流风暴爬虫中禁用子域



我们如何在流媒体中禁用注入子域?现在,如果我们在流中注入www.ebay.com而不是在流中注入,我们有子域页面:my.ebay.comcommunity.ebay.com、...

您可以通过在urlfilters.json中将ignoreOutsideHost设置为true来配置HostURLFilter以排除种子主机名之外的URL。

{
  "class": "com.digitalpebble.stormcrawler.filtering.host.HostURLFilter",
  "name": "HostURLFilter",
  "params": {
    "ignoreOutsideHost": true,
    "ignoreOutsideDomain": true
  }
}

最新更新