小贝子编程

将正则表达式过滤器应用于爬网程序以抓取特定页面

我正在使用风暴爬虫 1.10 和弹性搜索 6.3.x。例如，我有一个主网站https://www.abce.org它有子页面，如https://abce.org/def和https://abce.org/ghi.我想专门抓取https://www.abce.org/ghi下的页面。

我的种子网址是https://www.abce.org/ghi/。

目前，我每次都在下面应用不同的正则表达式过滤器。

我测试了我的正则表达式，它的显示有效。但是当我检查状态索引时，它只显示发现的种子网址，没有其他内容。

尝试使用FastURLFilter，您可能会发现它使用起来更直观。在调试模式下运行拓扑，以检查是否已将 URL 提交到 URLFilter，以及它们是否按预期运行。

在你问之前，这里有一个关于调试 Storm 的提示

相关内容