我有一个map reduce作业,其中每个mapper都需要多次随机访问另一个HBase表。我想知道对HBase表的大量随机访问(并发地,由于映射器并发地运行)的效率如何。
非常感谢!
HBase在随机访问时是高效的-然而,根据map/reduce中的表有多大以及执行该i/o的次数,您可能需要考虑其他选项例如,如果随机/访问表足够小-将其加载到每个映射器的内存中(覆盖设置来完成)。如果随机访问表很大,请考虑运行一个额外的map/reduce来为另一个map-reduce做准备(这样您就可以遍历两个表/一个统一的表)