限制风暴爬虫中的水平深度(按页面发现的outlinks数量)



我正在使用stormccrawler,我想知道是否有办法限制页面发现的outlink数量。我看起来有点像纳奇的db.max.outlinks.per.page。提前感谢

目前还没有,但可以很容易地将其添加到JSoupParserBolt中,也许还可以添加到Tika等效程序中。请随意在GitHub上打开一个问题。

最新更新