从当前运行的job中运行一个新的Hadoop流作业



是否可以从

创建并运行一个新的Hadoop 作业?
  1. 当前正在执行的常规Hadoop Java作业,或
  2. 一个Hadoop Mapper (Python),作为Hadoop流作业的一部分执行。

和如何?

对于大多数Java作业来说,在Java程序中运行.jar是很简单的。Python流作业也是如此。

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar -输入myInputDirs-输出myOutputDir-mapper org.apache.hadoop.mapred.lib.IdentityMapper 减速器/bin/wc

相关内容

  • 没有找到相关文章

最新更新