Native mapreduce VS hbase mapreduce



如果我使用 TableMapReduceUtil(Hbase) 创建 MR 作业,似乎 hbase 扫描程序将数据馈送到映射器中,并将数据从化简器转换为特定的 hbase 输出格式以将其存储在 hbase 表中。出于这个原因,我希望hbase mapreduce作业将比本机MR作业花费更多时间。那么,Hbase 作业比原生 MR 需要多长时间?

关于通过

HBase 的读取,可能比直接使用文件的本机 map/reduce 慢 2-3 倍。

在最近发布的HBase 0.98中,他们添加了对HBase快照进行映射/缩减的功能。有关详细信息,您可以查看此演示文稿(幻灯片 7 用于 API,幻灯片 16 用于速度比较)。

关于写入,

您可以直接写入 HFiles,然后批量加载到 HBase - 但是由于 HBase 缓存数据并进行批量写入,您也可以对其进行调整并获得可比或更好的结果

最新更新