我试图在hadoop集群上运行Dumbo MapReduce命令,但出现以下错误。
02年3月15日17:55:28错误流。StreamJob:作业未成功。错误:NA02年3月15日17:55:28信息流。StreamJob:killJob。。。流式处理命令失败!
我似乎需要提供Hadoop流jar的路径。我怎么能找到这个?Hadoop流媒体jar是什么?
我的dumbo命令如下:
dumbo启动test_dumbo6.py-hoop/apps/hadoop/-input/storage/user/jj/json.log-output ipcounts2
Hadoop流是Hadoop核心的一部分,因此应该在$Hadoop_HOME/lib目录中提供。
这个库可以通过添加一个额外的参数添加到你的工作中:
-libjar <path_to_jar>