Hadoop:是否有可能将几个Map-Side连接链接在一起,似乎没有



是否可以将多个映射端连接链接在一起?对我来说这是不可能的,因为我们不能仅使用 map 对值进行排序(而在 reduce 中,我们可以使用二次排序)。因此,无法为下一次连接提供排序值结果。是否有任何解决方案可以对映射端连接结果值进行排序?或者任何链接多个映射端联接的解决方案?现在我可以考虑使用 map-reduce 作业来对值进行排序。

如果你使用的是旧的api(mapred包),那么看看CompositeInputFormat。甚至还有一篇来自Roberto Congiu的博客文章,更详细地解释了如何使用它:

  • http://www.congiu.com/node/5

这确实要求对数据集进行预排序并可能进行分区

你可能想看看雅虎的Oozie框架:

  1. http://incubator.apache.org/oozie/
  2. https://github.com/yahoo/oozie

最新更新