我正在排除如何多次对数据进行排序而不必每次都返回映射器的问题。
我想设置:映射器1-->减速机1-->减速机2-->减速机3-
我想让reductor 1输出(键,数据),然后让它直接进入reductor 2…这可能吗?
我从故障排除中了解到,您可以链接作业,但这需要每个步骤都有一个映射器?
每当我尝试在没有映射程序的情况下运行时,它都会以错误告终。如果我可以根据需要从reducer 1输出mapper,那么为每个步骤运行mapper似乎都是浪费时间/资源。
想法?
简而言之,如果您使用Java,ChainReducer和ChainMap就是您所需要的。使用这些类,您可以在链中以任何顺序添加任意数量的减速器或映射器。
《Hadoop在行动》一书在第5章中描述了这个过程。