在Spark中,sc.newAPIHadoopRDD在5个分区中读取2.7 GB数据



我正在使用spark 1.4,我试图通过使用scc . newapihadooprdd读取2.7 GB数据从Hbase读取数据,但是有5个任务是为这个阶段创建的,需要2到3分钟来处理它。谁能告诉我如何增加更多的分区来快速读取数据?

org.apache.hadoop.hbase.mapreduce.TableInputFormat为每个区域创建一个分区。你的桌子似乎被分成了5个区域。预拆分表应该会增加分区的数量(有关拆分的更多信息,请参阅此处)。

相关内容

  • 没有找到相关文章

最新更新