如何给深度在抓手2.3爬行

在v2.2.1中有一个抓取命令，您可以在其中指定抓取深度

bin/nutch crawl [-solr] [-dir d] [-threads n][-depth i] [-topN N]

如何为nutch v2.3做同样的事情?

该脚本的文档没有更新，我认为该脚本与Nutch 1.4相关。

你可以在github上查看Nutch的正式存储库，当然要确保你看到的是正确的分支。

不管怎样，Nutch 2。X的抓取脚本如下(您可以在这里看到2.3的源代码):

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

其中seedDir是种子url文件所在的目录，crawlId是您希望调用爬行作业的名称，solrURL是不言自明的，numberOfRounds是您正在寻找的。

请注意，脚本也有一些参数，你可以改变(在脚本内)，像每层抓取页面的数量(即抓取的宽度)

在conf文件夹下的nutch-default.xml中

相关内容