我想使用单个mapreduce作业将数据批量加载到多个表中。由于数据量很大,迭代数据集两次并使用多个作业加载会很耗时。有什么办法可以做到这一点吗?提前谢谢。
我正在使用Hbase。但是我还不需要批量加载。但是我遇到了这篇文章,可能会对您有所帮助。
http://hbase.apache.org/book/arch.bulk.load.html
批量加载功能使用 MapReduce 作业以 HBase 的内部数据格式输出表数据,然后将生成的 StoreFiles 直接加载到正在运行的集群中。与仅使用 HBase API 相比,使用批量加载将使用更少的 CPU 和网络资源。