如何通过指定深度抓取网站

我使用nutch 2.x。所以我尝试使用nutch命令，深度选项为

$: nutch inject ./urls/seed.txt -depth 5

在执行此命令后得到类似

的消息

无法识别的参数-depth

所以当我在这里失败时我尝试使用nutch crawl作为

$: nutch crawl ./urls/seed.txt -depth 5

出现类似

的错误

命令抓取已弃用，请使用bin/crawl代替

所以我尝试使用抓取命令来抓取种子。txt中的url，在这种情况下，它要求solr，但我没有使用solr

我的问题是如何通过指定深度来抓取网站

我的问题是你想通过抓取页面而不是在SOLR中索引它来做什么?

回答你的问题:

如果你想使用Nutch Crawler，并且你不想将其索引到SOLR中，那么从抓取脚本中删除以下代码段:

http://technical-fundas.blogspot.com/2014/07/crawl-your-website-using-nutch-crawler.html

回答你的其他问题:

如何获取Nutch抓取的所有链接的HTML内容(查看此链接):

如何从nutch获取html内容

这一定会解决你的问题。

相关内容