在v2.2.1中有一个抓取命令,您可以在其中指定抓取深度
bin/nutch crawl [-solr] [-dir d] [-threads n][-depth i] [-topN N]
如何为nutch v2.3做同样的事情?
该脚本的文档没有更新,我认为该脚本与Nutch 1.4相关。
你可以在github上查看Nutch的正式存储库,当然要确保你看到的是正确的分支。
不管怎样,Nutch 2。X的抓取脚本如下(您可以在这里看到2.3的源代码):crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>
其中seedDir是种子url文件所在的目录,crawlId是您希望调用爬行作业的名称,solrURL是不言自明的,numberOfRounds是您正在寻找的。
请注意,脚本也有一些参数,你可以改变(在脚本内),像每层抓取页面的数量(即抓取的宽度)
在conf文件夹下的nutch-default.xml中