如何给深度在抓手2.3爬行



在v2.2.1中有一个抓取命令,您可以在其中指定抓取深度

bin/nutch crawl [-solr] [-dir d] [-threads n][-depth i] [-topN N]

如何为nutch v2.3做同样的事情?

该脚本的文档没有更新,我认为该脚本与Nutch 1.4相关。

你可以在github上查看Nutch的正式存储库,当然要确保你看到的是正确的分支。

不管怎样,Nutch 2。X的抓取脚本如下(您可以在这里看到2.3的源代码):
crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

其中seedDir是种子url文件所在的目录,crawlId是您希望调用爬行作业的名称,solrURL是不言自明的,numberOfRounds是您正在寻找的。

请注意,脚本也有一些参数,你可以改变(在脚本内),像每层抓取页面的数量(即抓取的宽度)

在conf文件夹下的nutch-default.xml中

最新更新