我使用的是nutch 2.3,我正在尝试获取seed.txt文件中存在的一些url的html内容,并将其传递给nutch到HBase中。
所以问题如下——
第一次爬网:一切运行良好,我将数据以url作为行键输入HBase。
第二次运行:当我用不同的url第二次运行爬网时,我发现有太多的url用于正在运行的抓取作业,而我的种子文件中只有一个url。
因此,我的问题是如何确保nutch仅爬网并获取seed.txt中存在的url的html内容,而不是seed.txt的url html内容中存在的out链接
我认为您只想获取种子文件中给定的域。更新nutch-site.xml如下
<property>
<name>db.ignore.external.links</name>
<value>true</value>
</property>
您可以将爬网命令的迭代保持为"1",然后nutch将只爬网seed.txt文件中存在的URL。
例如
bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1
此外,您可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。
#accept anything else
+http://doamin.com