Spark 群集中的 Hive 查询



我需要了解如何在Spark集群中执行hive查询。它将作为在内存中运行的Mapreduce作业运行,或者它将使用Spark架构来运行Hive查询。请澄清。

如果你在蜂巢或直线中运行蜂巢查询,它将使用 Map-reduce,但如果你在 spark REPL 或编程中运行蜂巢查询,查询将简单地转换为数据帧,并创建与数据帧相同的逻辑和物理计划并执行。因此将使用火花的所有力量。

假设你有一个配置了 YARN 和 Spark 的 Hadoop 集群;

Hive 执行引擎由hive.execution.engine属性控制。根据文档,它可以是mr(默认(,tezspark

最新更新