Hbase表导出到配置单元



你好:(我正准备将1个hbase表的全部数据移动到hive。表的大小非常大(500TB(

搜索的结果是,有hbase导出,但只支持hbase和hbase之间的数据移动(hdfs中丢弃的文件不是纯文本,因此hive无法立即读取它们(此外,不能使用hive的hbase处理程序,因为hbase是一个远程集群和各种安全策略。

如果像Hive-to-Hive一样支持INSERT INTO语法,那就太好了,但我正在寻找另一种方法。有没有一种好的方法可以用逗号分隔Hbase表的每一列,并将其放到hdfs中?

您可以尝试ExportSnapshot工具将数据从Hbase移动到另一个集群上的HDFS,例如

$ hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot MySnapshot -copy-to hdfs://yourserver:8020/hbase_root_dir -mappers 16

查看此以了解更多详细信息。

最新更新