nutch 1.2 solr 3.1集成问题



我已经使用NUTCH 1.2成功地对一个网站进行了爬网。现在我想将其与solr 3.1集成。问题是,当我发出命令$bin/NUTCH solrindex localhost:8080/solr/crawldb crawl/linkdb cra-wl/segments/*时,会发生错误。我正在附上我的坚果日志

请帮助我解决这个问题

错误请求

请求://localhost:8080/solr/update?wt=javabin&版本=2网址:org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436)网址:org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245)网址:org.apache.solr.client.solrj.request.AbstractUpdateRequest.produce(AbstractUpdateRequest.java:105)网址:org.apache.solr.client.solrj.SolrServer.add(SolrServer.java:49)网址:org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75)网址:org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutput Format.java:48)网址:org.apache.hadop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474)网址:org.apache.hadop.mapred.ReduceTask.run(ReduceTask.java:411)网址:org.apache.hadop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)2013-07-08 17:38:47577错误解决方案。SolrIndexer-java.io.io异常:作业失败!

您需要将以下Apache Commons库添加到类路径:commons-httpclient.jar(您可以将其放在nutch安装所使用的其他JAR所在的同一文件夹中)。

您可以在此处找到HttpClient的当前版本http://hc.apache.org/httpcomponents-client-ga/

请注意,您的Nutch版本可能使用了旧版本的HttpClient,而当前版本的HttpClient与该旧版本不向后兼容。在这种情况下,您需要下载HttpClient的旧版本,并将该旧版本包含在您的libs中。

最新更新