Apache Nutch 1.x 注入爬行数据库错误



尝试在谷歌上搜索这个问题,但找不到任何有用的东西。

以下教程 https://wiki.apache.org/nutch/NutchTutorial

已验证带垃圾箱/坚果的坚果,很好

安装 java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包含在路径输出中

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

请注意使用窗口,因此也使用cygwin64。

已添加目录 url 并添加文件种子.txt使用一个 url

冉冉��

bin/nutch inject crawl/crawldb urls/seed.txt

然后收到以下错误:

注入器:爬行数据库

:爬行/爬行数据库 注射器:网址目录:网址/种子.txt 注入器:将注入的 URL 转换为爬网数据库条目。 注入器:java.io.IOException:锁定文件crawl/crawldb/.lock已经存在。

嗨,这个问题有两个部分:

1 .爬行数据库文件夹中已经存在 .lock 文件。只需删除 .lock 文件即可。

阿拉伯数字。为%JAVA_HOME%bin%HADOOP_HOME%bin设置系统环境变量 Path,然后设置带%JAVA_HOME%的用户环境变量和不带 bin 的%HADOOP_HOME%

错误消息非常明确:另一个 Nutch 作业在 CrawlDb 上持有一个锁,或者在作业成功后删除锁定文件之前崩溃或被杀死。删除锁定文件crawl/crawldb/.locked应该可以解决问题。但是,查看日志文件(尤其是hadoop.log(以找出锁定文件未被删除的原因也是一种很好的做法。

最新更新