正在使用MRJob获取字节偏移量



根据"Hadoop最终指南",输入格式TextInputFormat给出键值对(k, v) = (byte offset, line)。但是,在MRJob中,映射器输入中的键始终是None。获取字节偏移量作为键应该很容易,因为这就是TextInputFormat的作用。我该怎么得到这个?

我知道您可以使用环境变量"map_input_start"自己计算字节偏移量,但这会造成问题,我想用更简单的方法来实现,只需将偏移量作为关键字。

TextInputFormat是一个Java类。。。我看不出这在流媒体世界会如何运作。

没有在映射器类中定义带有以下签名的映射方法,而是将字节偏移量作为键。

public void map(LongWritable key,Text value,OutputCollector<>,Reporter) 

相关内容

  • 没有找到相关文章

最新更新