在默认正则表达式过滤器中解析规则时的风暴爬虫和正则表达式.txt?

如果我只需要抓取域中的一个主机，同时仍然抓取我们网站的其余部分，那么在默认正则表达式过滤器中放入什么正则表达式.txt来完成它？

我正在尝试阻止 https：//*.bar 的所有主机.com同时只允许 https://foo.bar.com

我是否可以执行一个通用-^https?://.*.bar.com.*规则，然后执行一个特定规则，允许一个主机+^https?://foo.bar.com.*这行得通吗？

我试图做一个复杂的-^https?://([a-eg-zA-EG-Z0-9]类型的事情来阻止除foo之外的所有内容，但否定所有内容并添加回我真正想要的那个似乎要简单得多......

最具体的规则应该排在第一位，请参阅代码

https://github.com/DigitalPebble/storm-crawler/blob/399cdac2125c39ef9be26586a2ca2609f92b0988/core/src/main/java/com/digitalpebble/stormcrawler/filtering/regex/RegexURLFilterBase.java#L156

fastURLFilter https://github.com/DigitalPebble/storm-crawler/wiki/URLFilters 遵循相同的逻辑，但组织起来可能更简单。

相关内容

最新更新

热门标签：