使用TableMapReduceUtil和MultipleOutputFormat时,在Job和JobConf之间挣扎



我正在尝试读取HBase表TableMapReduceUtil并将数据转储到HDFS中(不要问我为什么。它是weired,但没有任何其他选项)。因此,为了实现这一点,我想通过reducer键来操作(reducer发出的)最终文件名。

在映射器方面,我能够按默认顺序将hbase rotrying转储到HDFS。但是,为了覆盖reducer输出文件格式(按键命名),我发现reducer的MultipleOutputFormat类(由于一些接口混乱,在0.20上没有,请在某处阅读),而旧的类只需要JobConf。但是,如果我尝试用旧的JobConf编写代码,我将无法使用HBase 0.90的TableMapReduceUtil,它只需要Job

与Hadoop/HBase没有太多关系。花了一些时间修改现有的MRJOb。我似乎对自己的做法很固执。

版本Hadoop-Core-0.20。;HBase 0.90.1

谢谢Pankaj

我不能使用HBase 0.90的TableMapReduceUtil,它只接受Job类。

有org.apache.hdoop.hbase.mapred.TableMapReduceUtil和org.apache.hadoop.hbase_mapreduce.TableMapReduceUntil类。第一个将采用JobConf(旧MR API),第二个将采用Job(新MR API)。使用适当的TableMapReduceUtil类。

相关内容

  • 没有找到相关文章

最新更新