如何设置nutch来提取仅存在于种子文件中的url的内容

我使用的是nutch 2.3，我正在尝试获取seed.txt文件中存在的一些url的html内容，并将其传递给nutch到HBase中。

所以问题如下——

第一次爬网：一切运行良好，我将数据以url作为行键输入HBase。

第二次运行：当我用不同的url第二次运行爬网时，我发现有太多的url用于正在运行的抓取作业，而我的种子文件中只有一个url。

因此，我的问题是如何确保nutch仅爬网并获取seed.txt中存在的url的html内容，而不是seed.txt的url html内容中存在的out链接

我认为您只想获取种子文件中给定的域。更新nutch-site.xml如下

  <property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

您可以将爬网命令的迭代保持为"1"，然后nutch将只爬网seed.txt文件中存在的URL。

例如

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外，您可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。

#accept anything else
+http://doamin.com

相关内容