远程连接apache spark和apache hive



我可以从安装apache spark的集群中的hive server加载数据。但是我如何从远程hive服务器加载数据到数据框架。hive jdbc连接器是唯一的选择吗?

有什么建议吗?

可以使用org.apache.spark.sql.hive.HiveContext对Hive表执行SQL查询。

您也可以将spark连接到真正存储数据的底层HDFS目录。这将提高性能,因为SQL查询不需要解析,也不需要在文件上应用模式。

如果集群是外部集群,则需要设置hive.metastore.uris

相关内容

  • 没有找到相关文章