根据"Hadoop最终指南",输入格式TextInputFormat
给出键值对(k, v) = (byte offset, line)
。但是,在MRJob中,映射器输入中的键始终是None
。获取字节偏移量作为键应该很容易,因为这就是TextInputFormat的作用。我该怎么得到这个?
我知道您可以使用环境变量"map_input_start"自己计算字节偏移量,但这会造成问题,我想用更简单的方法来实现,只需将偏移量作为关键字。
TextInputFormat是一个Java类。。。我看不出这在流媒体世界会如何运作。
没有在映射器类中定义带有以下签名的映射方法,而是将字节偏移量作为键。
public void map(LongWritable key,Text value,OutputCollector<>,Reporter)