我有一个程序hbase和mapreduce。
i将数据存储在HDF中,此文件的大小为:100G。现在我将这些数据放在HBase中。
我使用MapReduce扫描此文件损失了5分钟。但是要扫描hbase表损失了30分钟。
使用HBase和MapReduce时如何提高速度?
谢谢。
我假设您有一个节点HDF。如果您将100GB文件放在HDF的多节点群集中,那么对于MAP DYDEB和HIVE而言,它的速度要快得多。
您可以尝试增加地图上的映射器和还原器减少以提高性能,看看这篇文章。
Hive本质上是一种基于HDF顶部的数据仓库工具,每个查询都在下面是地图减少任务本身。因此,上面的帖子也会回答此问题。