有人直接在HBase表上使用SparkSQL,就像在Hive表上使用SparkSQL一样。我是新来的火花。请指导我如何连接hbase和spark。如何在hbase表上查询
有两种方法可以连接到hbase表
—直连Hbase:
直接连接hbase,从RDD
创建一个DataFrame
,并在其上执行SQL。我不打算重新发明轮子,请参阅如何从hbase读取使用spark正如上面链接中@iMKanchwala的回答所描述的那样。唯一的事情是将其转换为数据帧(使用toDF
)并遵循sql方法。
-注册表作为hive外部表与hbase存储处理程序,您可以使用hive spark上的hive从hivcontext。这也是一个简单的方法。
Ex :
CREATE TABLE users(
userid int, name string, email string, notes string)
STORED BY
'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES (
"hbase.columns.mapping" =
”small:name,small:email,large:notes”);
如何做到这一点,请参阅作为一个例子
我更喜欢方法1。