我想知道是否有可能定义一个分层MapReduce作业?换句话说,我希望有一个MapReduce作业,在mapper阶段将调用另一个MapReduce作业。这可能吗?你有什么建议吗?
我想这样做是为了在我的程序中有额外的并行性/分布。谢谢,Arik .
Hadoop权威指南书包含大量与MapReduce作业链相关的食谱,包括示例代码和详细解释。特别是像"高级API使用"之类的章节。
我个人成功地用几个HBase表作为手工TableInputFormat
扩展的源来替换复杂的map-reduce作业。结果是将源数据与最小约简相结合的输入格式,从而将作业转换为单个映射步骤。所以我建议你们也往这个方向看
你应该试试Cascading。它允许您定义具有多个步骤的相当复杂的作业。
我猜你需要一个工具。