我可以从安装apache spark的集群中的hive server加载数据。但是我如何从远程hive服务器加载数据到数据框架。hive jdbc连接器是唯一的选择吗?
有什么建议吗?
可以使用org.apache.spark.sql.hive.HiveContext
对Hive表执行SQL查询。
您也可以将spark连接到真正存储数据的底层HDFS目录。这将提高性能,因为SQL查询不需要解析,也不需要在文件上应用模式。
如果集群是外部集群,则需要设置hive.metastore.uris