我正在尝试在单节点Hadoop集群中使用rmr2运行一个简单的MR程序。这是设置的环境
乌班图12.04(32位(
R(Ubuntu 自带 2.14.1,因此更新到 3.0.2(
从这里安装了最新的 rmr2 和 rhdfs 以及相应的依赖项
Hadoop 1.2.1
现在我正在尝试运行一个简单的MR程序作为
Sys.setenv(HADOOP_HOME="/home/training/Installations/hadoop-1.2.1")
Sys.setenv(HADOOP_CMD="/home/training/Installations/hadoop-1.2.1/bin/hadoop")
library(rmr2)
library(rhdfs)
ints = to.dfs(1:100)
calc = mapreduce(input = ints, map = function(k, v) cbind(v, 2*v))
from.dfs(calc)
mapreduce作业失败,并在hadoop-1.2.1/logs/userlogs/job_201310091055_0001/attempt_201310091055_0001_m_000000_0/stderr中出现以下错误消息
Error in library(functional) : there is no package called ‘functional’
Execution halted
java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:576)
但是,sessionInfo()
显示功能包已加载
> sessionInfo()
R version 3.0.2 (2013-09-25)
Platform: i686-pc-linux-gnu (32-bit)
>locale:
[1] LC_CTYPE=en_IN LC_NUMERIC=C LC_TIME=en_IN
[4] LC_COLLATE=en_IN LC_MONETARY=en_IN LC_MESSAGES=en_IN
[7] LC_PAPER=en_IN LC_NAME=C LC_ADDRESS=C
[10] LC_TELEPHONE=C LC_MEASUREMENT=en_IN LC_IDENTIFICATION=C
>attached base packages:
[1] stats graphics grDevices utils datasets methods base
>other attached packages:
[1] rhdfs_1.0.6 rJava_0.9-4 rmr2_2.3.0 reshape2_1.2.2 plyr_1.8
[6] stringr_0.6.2 **functional_0.4** digest_0.6.3 bitops_1.0-6 RJSONIO_1.0-3
[11] Rcpp_0.10.5
更新:我能够运行从 STDIO 读取和写入的 R MR 作业,而无需使用 rmr2 和 rhdfs 库,如此处所述。所以,现在我的猜测是问题与 rmr2 和 rhdfs 包隔离。
如何解决这个问题?
将 rmr2/rhdfs 的依赖项安装在系统目录而不是自定义目录 (~/R/x86_64-pc-linux-gnu-library/3.0( 中。这可以完成以 sudo 运行 R 然后安装依赖项。感谢Antonio在RHadoop论坛上的帮助。
这类问题的最常见解决方案是重新安装,因为在 sesssionInfo(( 中你正在得到
**functional_0.4**
当我做会话信息((时,我得到了
functional_0.4
我想您可能缺少一些依赖项,因此请从 R 控制台使用
install.packages("functional",dependencies="TRUE")
修复由于任何其他软件包引起的任何问题。
PS:从可用的镜像中选择云0镜像。
如果这仍然没有帮助,我建议您使用 r-base-dev 作为您的 R 版本,尽管我没有理由使用 http://cran.r-project.org/bin/linux/ubuntu/README 来证明这一点
sudo apt-get install r-base-dev
谢谢