如何在没有MapReduce的情况下在HBase中进行分布式更新



问题

我有一些工作只需要迭代HBase表中的每个记录并完成一些任务。例如,提取要导出的字段,或者根据某些新的业务规则更新字段。

推理

MapReduce在这里显得有些过头了。没有什么可以真正映射的,也没有"减少"。地图永远只是钥匙+记录。当然,shuffle和sort没有任何用处,因为它们的密钥保证是HBase唯一的。

出于性能原因,这仍然应该是分布式的。我想我正在寻找一个好的老式扫描表,碰巧是分布式的。

问题

有哪些选项可以利用集群,同时避免完整MapReduce作业的不必要步骤?

协处理器正是为了这个。从链接来看:"一个既灵活又通用的扩展框架,以及直接在HBase服务器进程中进行分布式计算的框架"。

你可以只做地图工作-它会做你想要的事情要获得仅地图作业,可以使用TableMapReduceUtil.initTableMapperJob辅助方法不设置减速器job.setNumReduceTasks(0);

如果您为扫描指定了一个过滤器,您也可以将一些处理推送到hbase

相关内容

  • 没有找到相关文章

最新更新