小贝子编程

远程连接apache spark和apache hive

我可以从安装apache spark的集群中的hive server加载数据。但是我如何从远程hive服务器加载数据到数据框架。hive jdbc连接器是唯一的选择吗?

有什么建议吗?

可以使用org.apache.spark.sql.hive.HiveContext对Hive表执行SQL查询。

您也可以将spark连接到真正存储数据的底层HDFS目录。这将提高性能，因为SQL查询不需要解析，也不需要在文件上应用模式。

如果集群是外部集群，则需要设置hive.metastore.uris

最新更新