如何设置nutch来提取仅存在于种子文件中的url的内容



我使用的是nutch 2.3,我正在尝试获取seed.txt文件中存在的一些url的html内容,并将其传递给nutch到HBase中。

所以问题如下——

第一次爬网:一切运行良好,我将数据以url作为行键输入HBase。

第二次运行:当我用不同的url第二次运行爬网时,我发现有太多的url用于正在运行的抓取作业,而我的种子文件中只有一个url。

因此,我的问题是如何确保nutch爬网并获取seed.txt中存在的url的html内容,而不是seed.txt的url html内容中存在的out链接

我认为您只想获取种子文件中给定的域。更新nutch-site.xml如下

  <property>
   <name>db.ignore.external.links</name>
   <value>true</value>
  </property>

您可以将爬网命令的迭代保持为"1",然后nutch将只爬网seed.txt文件中存在的URL。

例如

bin/crawl -i -D solr.server.url=<solrUrl> <seed-dir> <crawl-dir> 1

此外,您可以通过配置conf目录中的regex-urlfilter.txt来限制外部链接。

#accept anything else
+http://doamin.com

最新更新