如何通过指定深度抓取网站



我使用nutch 2.x。所以我尝试使用nutch命令,深度选项为

$: nutch inject ./urls/seed.txt -depth 5

在执行此命令后得到类似

的消息

无法识别的参数-depth

所以当我在这里失败时我尝试使用nutch crawl作为

$: nutch crawl ./urls/seed.txt -depth 5

出现类似

的错误

命令抓取已弃用,请使用bin/crawl代替

所以我尝试使用抓取命令来抓取种子。txt中的url,在这种情况下,它要求solr,但我没有使用solr

我的问题是如何通过指定深度来抓取网站

我的问题是你想通过抓取页面而不是在SOLR中索引它来做什么?

回答你的问题:

如果你想使用Nutch Crawler,并且你不想将其索引到SOLR中,那么从抓取脚本中删除以下代码段:

http://technical-fundas.blogspot.com/2014/07/crawl-your-website-using-nutch-crawler.html

回答你的其他问题:

如何获取Nutch抓取的所有链接的HTML内容(查看此链接):

如何从nutch获取html内容

这一定会解决你的问题。

最新更新