Nutch 2.x没有错误,也没有结果



我玩nutch2.x已经有一段时间了,按照这篇文章中建议的Nutch2.x教程进行设置,但我仍然无法理解-如果有任何帮助,我们将不胜感激。

当按照教程使用INJECT命令时,它会注入我在seeds.txt:中的2个URLS

nutch inject ../local/urls/seed.txt 

但当运行脚本时,它不会访问任何URL:

bin/crawl ../local/urls/seed.txt TestCrawl *ttp://l*calhost:8983/solr 2

我现在又开始了Nutch 2.2.1-Hbase-0.94.10和Solr 4.4.0的全新安装,正如邮件列表上的人所建议的那样,因为教程中提到的版本已经有好几年的历史了,现在我得到的错误是:

[root@localhostlocal]#bin/nutch-inject/uls/seed.txt注射器工作:2013-08-11 17:59:32开始InjectorJob:正在注入urlDir:/urls/seed.txtInjectorJob:org.apache.gora.util.GoraException:java.lang.RuntimeException:java.lang.IollegalArgumentException:不是主机:端口对:�2249@localhost.localdomainlocalhost,454311376235201648

虽然这是一个很长时间的问题,但我在这里有一个建议因为nutch是apache项目,所以它会遵守robots.txt,也许正因为如此,你得到了任何东西您可以将src/java.org/apache/nutch/fitcher/FetcherReducer.java添加到取消注释

/*if (!rules.isAllowed(fit.u.toString())) {
          // unblock
          fetchQueues.finishFetchItem(fit, true);
          if (LOG.isDebugEnabled()) {
            LOG.debug("Denied by robots.txt: " + fit.url);
          }
          output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,
              CrawlStatus.STATUS_GONE);
          continue;
        }
    */

最新更新