我有几个异构输入,需要使用不同的映射器来处理,以产生一个均匀的映射,然后可以通过单个化简器的多个实例来简化。是否可以以比连接所有映射器的输出并将它们提供给 id-mapper 更优雅的方式完成,后者只会发出与它收到的相同的结果?我使用的是Python Hadoop Streaming API,所以它比使用MultipleInputs Java接口要复杂一些。
你要找的是 多输入 . 您应该为不同的异构输入编写不同的映射器。
在驱动程序中,应将不同的路径映射到各自的映射器。
所有这些映射器都应将其各自的映射输出转换为将由化简器消耗的标准输出。
http://bytepadding.com/big-data/map-reduce/multipleinputs-in-map-reduce