我正在使用风暴爬虫 1.10 和弹性搜索 6.3.x。例如,我有一个主网站https://www.abce.org
它有子页面,如https://abce.org/def
和https://abce.org/ghi
.我想专门抓取https://www.abce.org/ghi
下的页面。
我的种子网址是https://www.abce.org/ghi/
。
目前,我每次都在下面应用不同的正则表达式过滤器。
+^https://www.abce.org/ghi*
+^(?:https?://)www.abce.org/ghi(.+)*$
+^(?:https?://)?(?:www.)?abce.[a-zA-Z0-9.S]+$
我测试了我的正则表达式,它的显示有效。但是当我检查状态索引时,它只显示发现的种子网址,没有其他内容。
尝试使用FastURLFilter,您可能会发现它使用起来更直观。在调试模式下运行拓扑,以检查是否已将 URL 提交到 URLFilter,以及它们是否按预期运行。
在你问之前,这里有一个关于调试 Storm 的提示