Hierarchical MapReduce

我想知道是否有可能定义一个分层MapReduce作业?换句话说，我希望有一个MapReduce作业，在mapper阶段将调用另一个MapReduce作业。这可能吗?你有什么建议吗?

我想这样做是为了在我的程序中有额外的并行性/分布。谢谢,Arik .

Hadoop权威指南书包含大量与MapReduce作业链相关的食谱，包括示例代码和详细解释。特别是像"高级API使用"之类的章节。

我个人成功地用几个HBase表作为手工TableInputFormat扩展的源来替换复杂的map-reduce作业。结果是将源数据与最小约简相结合的输入格式，从而将作业转换为单个映射步骤。所以我建议你们也往这个方向看

你应该试试Cascading。它允许您定义具有多个步骤的相当复杂的作业。

我猜你需要一个工具。

相关内容