尝试在谷歌上搜索这个问题,但找不到任何有用的东西。
以下教程 https://wiki.apache.org/nutch/NutchTutorial
已验证带垃圾箱/坚果的坚果,很好
安装 java 8
java -version returns
java version "1.8.0_05"
Java(TM) SE Runtime Environment (build 1.8.0_05-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.5-b02, mixed mode)
并包含在路径输出中
export JAVA_HOME="/cygdrive/c/program files/java/jre8"
export PATH="$JAVA_HOME/bin:$PATH"
请注意使用窗口,因此也使用cygwin64。
已添加目录 url 并添加文件种子.txt使用一个 url
冉冉��
bin/nutch inject crawl/crawldb urls/seed.txt
然后收到以下错误:
注入器:爬行数据库:爬行/爬行数据库 注射器:网址目录:网址/种子.txt 注入器:将注入的 URL 转换为爬网数据库条目。 注入器:java.io.IOException:锁定文件crawl/crawldb/.lock已经存在。
嗨,这个问题有两个部分:
1 .爬行数据库文件夹中已经存在 .lock 文件。只需删除 .lock 文件即可。
阿拉伯数字。为%JAVA_HOME%bin
和%HADOOP_HOME%bin
设置系统环境变量 Path,然后设置带%JAVA_HOME%
的用户环境变量和不带 bin 的%HADOOP_HOME%
。
错误消息非常明确:另一个 Nutch 作业在 CrawlDb 上持有一个锁,或者在作业成功后删除锁定文件之前崩溃或被杀死。删除锁定文件crawl/crawldb/.locked
应该可以解决问题。但是,查看日志文件(尤其是hadoop.log(以找出锁定文件未被删除的原因也是一种很好的做法。