nutch1.10输入路径不存在/linkdb/current

当我用以下命令运行nutch 1.10时，假设TestCrawl2以前不存在，需要创建，。。。

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20

我收到一个关于索引的错误，声称：

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current

linkdb目录存在，但不包含"current"目录。该目录由root用户所有，因此不应存在权限问题。由于进程从错误中退出，linkdb目录包含.locked和。。locked.crc文件。如果我再次运行该命令，这些锁定文件会导致它在同一位置退出。删除TestCrawl2目录，冲洗，重复。

请注意，nutch和solr安装本身以前在TestCrawl实例中运行时没有出现问题。只是现在我正在尝试一个新的，我遇到了问题。有关于解决此问题的建议吗？

好吧，我似乎遇到了这个问题的一个版本：

https://issues.apache.org/jira/browse/NUTCH-2041

这是因为爬网脚本没有意识到ignore_external_links我的nutch-site.xml文件的更改。

我正在尝试抓取几个网站，并希望通过忽略外部链接并单独使用regex-urlfilter.txt（仅使用+）来保持我的生活简单

现在看来，我必须将ignore_external_links改回false，并为每个url添加一个regex过滤器。希望我能尽快得到一个疯狂的1.11版本。看起来这是固定的。

相关内容

最新更新

热门标签：