是否可以从
创建并运行一个新的Hadoop 流作业?- 当前正在执行的常规Hadoop Java作业,或
- 一个Hadoop Mapper (Python),作为Hadoop流作业的一部分执行。
和如何?
对于大多数Java作业来说,在Java程序中运行.jar是很简单的。Python流作业也是如此。
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -输入myInputDirs-输出myOutputDir-mapper org.apache.hadoop.mapred.lib.IdentityMapper 减速器/bin/wc