我使用nutch 2.x。所以我尝试使用nutch命令,深度选项为
$: nutch inject ./urls/seed.txt -depth 5
在执行此命令后得到类似
的消息无法识别的参数-depth
所以当我在这里失败时我尝试使用nutch crawl作为
$: nutch crawl ./urls/seed.txt -depth 5
出现类似
的错误命令抓取已弃用,请使用bin/crawl代替
所以我尝试使用抓取命令来抓取种子。txt中的url,在这种情况下,它要求solr,但我没有使用solr
我的问题是如何通过指定深度来抓取网站我的问题是你想通过抓取页面而不是在SOLR中索引它来做什么?
回答你的问题:
如果你想使用Nutch Crawler,并且你不想将其索引到SOLR中,那么从抓取脚本中删除以下代码段:
http://technical-fundas.blogspot.com/2014/07/crawl-your-website-using-nutch-crawler.html回答你的其他问题:
如何获取Nutch抓取的所有链接的HTML内容(查看此链接):
如何从nutch获取html内容
这一定会解决你的问题。