SparkSQL on HBase Tables



有人直接在HBase表上使用SparkSQL,就像在Hive表上使用SparkSQL一样。我是新来的火花。请指导我如何连接hbase和spark。如何在hbase表上查询

有两种方法可以连接到hbase表

—直连Hbase:

直接连接hbase,从RDD创建一个DataFrame,并在其上执行SQL。我不打算重新发明轮子,请参阅如何从hbase读取使用spark正如上面链接中@iMKanchwala的回答所描述的那样。唯一的事情是将其转换为数据帧(使用toDF)并遵循sql方法。

-注册表作为hive外部表与hbase存储处理程序,您可以使用hive spark上的hive从hivcontext。这也是一个简单的方法。

Ex : 
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY 
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = 
”small:name,small:email,large:notes”);

如何做到这一点,请参阅作为一个例子

我更喜欢方法1。

相关内容

  • 没有找到相关文章

最新更新