如何从多个仅映射任务创建单个分布式内存映射



我有几个异构输入,需要使用不同的映射器来处理,以产生一个均匀的映射,然后可以通过单个化简器的多个实例来简化。是否可以以比连接所有映射器的输出并将它们提供给 id-mapper 更优雅的方式完成,后者只会发出与它收到的相同的结果?我使用的是Python Hadoop Streaming API,所以它比使用MultipleInputs Java接口要复杂一些。

你要找的是 多输入 . 您应该为不同的异构输入编写不同的映射器。

在驱动程序中,应将不同的路径映射到各自的映射器。

所有这些映射器

都应将其各自的映射输出转换为将由化简器消耗的标准输出。

http://bytepadding.com/big-data/map-reduce/multipleinputs-in-map-reduce

相关内容

  • 没有找到相关文章

最新更新