我已经设置了一个 hive 数据市场并使用 spark 框架来查询表并执行 ETL 活动,现在我希望用户通过从本地计算机连接来访问 hive 表,查询应该使用 spark 框架。
你可以遵循多种方法来连接到 Hive 元存储或从 Apache Spark 处理框架访问 Hive 表。
以下是从 apache spark 访问 Hive 表的一些常用方法:
- 使用 Apache Spark Beeline 访问 Hive 表
- 使用 Apache Spark JDBC 驱动程序访问 Hive 表
- 从 Python 和示例执行 Pyspark 脚本
请点击此链接详细了解:http://dwgeek.com/methods-to-access-hive-tables-from-apache-spark.html/
我认为你应该在Spark上研究Hive。
当您为该服务进行配置时(在链接的网站上解释(,用户将能够在Hive Editor上编写查询,例如在Hue上,但Spark将在下面使用以提供结果。用户可以像这样更改其查询的引擎
set hive.execution.engine=spark;
set hive.execution.engine=mr;