Hadoop将记录发送到所有减速器



如何将特定记录发送到我的所有减速器?

我知道Partitioner类及其作用,但我看不到任何简单的方法来确保一个记录进入所有的减速器。

基本上,Partitioner有这样的方法:

 int getPartition(K2 key,
             V2 value,
             int numPartitions)

我的第一个想法是让Partitioner和Mapper按如下方式协作:Mapper保持输出记录的次数等于reduce任务的次数,Partitioner返回所有int(从0到numPartitions-1),这样可以确保记录到达所有分区。

还有其他更聪明的方法可以解决这个问题吗?例如,对于需要发送到所有分区的记录,我返回-1,当框架看到返回的-1时,它会为我这样做。

分区器不以这种方式工作。它的工作是查看键(通常)和值(很少),以确定应该将该对发送到哪个reducer。这发生在映射器之后和reducer之前。

相反,您(映射器)应该能够向上下文询问配置,该配置可以回答减少器(分区)的总数。然后,映射器可以输出一个复杂的密钥,该密钥包括所需的实际密钥和分区号。您知道要写多少次,因为映射器可以找到减速器的数量(见上文)。partitioner所要做的就是分解复合键值,提取目标reducer索引并返回该索引。

顺便说一句,这意味着如果你使用这种技术来发送计数(如果你正在排序)或其他元数据,以便稍后在处理中使用,那么你的真实数据键必须遵循相同的复合格式。事实上,您可能必须在复合键中包含一个指示符,该指示符描述键/值对的类型(例如,1=实际数据,0=处理元数据)。

相关内容

  • 没有找到相关文章

最新更新