nutch1.10输入路径不存在/linkdb/current



当我用以下命令运行nutch 1.10时,假设TestCrawl2以前不存在,需要创建,。。。

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一个关于索引的错误,声称:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在,但不包含"current"目录。该目录由root用户所有,因此不应存在权限问题。由于进程从错误中退出,linkdb目录包含.locked和。。locked.crc文件。如果我再次运行该命令,这些锁定文件会导致它在同一位置退出。删除TestCrawl2目录,冲洗,重复。

请注意,nutch和solr安装本身以前在TestCrawl实例中运行时没有出现问题。只是现在我正在尝试一个新的,我遇到了问题。有关于解决此问题的建议吗?

好吧,我似乎遇到了这个问题的一个版本:

https://issues.apache.org/jira/browse/NUTCH-2041

这是因为爬网脚本没有意识到ignore_external_links我的nutch-site.xml文件的更改。

我正在尝试抓取几个网站,并希望通过忽略外部链接并单独使用regex-urlfilter.txt(仅使用+)来保持我的生活简单

现在看来,我必须将ignore_external_links改回false,并为每个url添加一个regex过滤器。希望我能尽快得到一个疯狂的1.11版本。看起来这是固定的。

相关内容

最新更新