我需要了解如何在Spark集群中执行hive查询。它将作为在内存中运行的Mapreduce作业运行,或者它将使用Spark架构来运行Hive查询。请澄清。
如果你在蜂巢或直线中运行蜂巢查询,它将使用 Map-reduce,但如果你在 spark REPL 或编程中运行蜂巢查询,查询将简单地转换为数据帧,并创建与数据帧相同的逻辑和物理计划并执行。因此将使用火花的所有力量。
假设你有一个配置了 YARN 和 Spark 的 Hadoop 集群;
Hive 执行引擎由hive.execution.engine
属性控制。根据文档,它可以是mr
(默认(,tez
或spark
。