是Hadoop reduce函数的输入,它的键是完整的

  • 本文关键字:Hadoop reduce 函数 hadoop mapreduce
  • 更新时间 :
  • 英文 :


我正在寻找一个涉及从多个文件读取关键数据的问题的解决方案。在单个映射步骤中,我需要将特定键的所有值同时放在同一位置。我在White的书中看到了关于"洗牌"的讨论,我很想知道,当你完成合并后,减速器的输入是按键排序的,如果一个键的所有数据都在那里....如果你能相信的话。

更大的图景是,我想做一个穷人的三重存储联盟,我想加载到内存存储中的三元组并不都来自同一个文件。它是一个垂直(?)分区,其中特定键的值位于不同的文件中。换句话说,一个完整记录的每列都来自不同的文件。Hadoop会重新组装吗?...

简而言之:是的。在Hadoop作业中,分区程序选择哪个reducer接收哪个(键、值)对。引用Yahoo关于分区的教程部分:"对于任何键,无论哪个映射程序实例生成它,目标分区都是相同的,这是必要的"。对于通常使用map reduce解决的许多类型的算法(例如您正在描述的分布式排序),这也是必要的。

相关内容

  • 没有找到相关文章

最新更新