将正则表达式过滤器应用于爬网程序以抓取特定页面



我正在使用风暴爬虫 1.10 和弹性搜索 6.3.x。例如,我有一个主网站https://www.abce.org它有子页面,如https://abce.org/defhttps://abce.org/ghi.我想专门抓取https://www.abce.org/ghi下的页面。

我的种子网址是https://www.abce.org/ghi/

目前,我每次都在下面应用不同的正则表达式过滤器。

  1. +^https://www.abce.org/ghi*
  2. +^(?:https?://)www.abce.org/ghi(.+)*$
  3. +^(?:https?://)?(?:www.)?abce.[a-zA-Z0-9.S]+$

我测试了我的正则表达式,它的显示有效。但是当我检查状态索引时,它只显示发现的种子网址,没有其他内容。

尝试使用FastURLFilter,您可能会发现它使用起来更直观。在调试模式下运行拓扑,以检查是否已将 URL 提交到 URLFilter,以及它们是否按预期运行。

在你问之前,这里有一个关于调试 Storm 的提示

最新更新