Apache Nutch 1.x 注入爬行数据库错误

尝试在谷歌上搜索这个问题，但找不到任何有用的东西。

以下教程 https://wiki.apache.org/nutch/NutchTutorial

已验证带垃圾箱/坚果的坚果，很好

安装 java 8

java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)

并包含在路径输出中

export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"

请注意使用窗口，因此也使用cygwin64。

已添加目录 url 并添加文件种子.txt使用一个 url

冉冉��

bin/nutch inject crawl/crawldb urls/seed.txt

然后收到以下错误：

注入器：爬行数据库

：爬行/爬行数据库注射器：网址目录：网址/种子.txt 注入器：将注入的 URL 转换为爬网数据库条目。注入器：java.io.IOException：锁定文件crawl/crawldb/.lock已经存在。

嗨，这个问题有两个部分：

1 .爬行数据库文件夹中已经存在 .lock 文件。只需删除 .lock 文件即可。

阿拉伯数字。为%JAVA_HOME%bin和%HADOOP_HOME%bin设置系统环境变量 Path，然后设置带%JAVA_HOME%的用户环境变量和不带 bin 的%HADOOP_HOME%。

错误消息非常明确：另一个 Nutch 作业在 CrawlDb 上持有一个锁，或者在作业成功后删除锁定文件之前崩溃或被杀死。删除锁定文件crawl/crawldb/.locked应该可以解决问题。但是，查看日志文件(尤其是hadoop.log(以找出锁定文件未被删除的原因也是一种很好的做法。

相关内容

最新更新

热门标签：