在阅读操作手册中的hadoop时,我遇到了几个关于减少联接的类,其中一些是DataJoinMapBase、TaggedMapOutput、DataJoinReducerBase。
但当我在谷歌上搜索hadoop上的joins概念时,它们都不是基于上述指定的类。相反,它们实现了自己的逻辑,许多都是基于MultipleInputs的。
现在我的问题是,在hadoop上,哪种连接方法更好?可以做些什么来取得更好的结果?对此有什么建议吗?
您可以尝试Panool库,它可以非常容易地减少侧联接。映射侧联接只是一种内存查找。