Hive查询在Spark 2.0中运行得非常慢

我在下面有一个简单的HIVE查询，我们有一个用例，我们将并行运行多个HIVE查询，在我们的情况下，它是16(我们机器中的核心数，使用scala PAR数组)。在Spark 1.6中，它在10秒内执行，但在Spark 2.0中，相同的查询需要5分钟。

"select * from emp as e join dept as d on .dept_id = t.dept_id where .dept_id = 100 "

谁能告诉我是怎么回事?为什么要这么长时间?

问候,杰伊

在1.6中需要几秒而在2.0中需要几分钟的查询通常是关于任务错误的，您可以在日志文件中看到它。你可能会看到类似"任务丢失……"在. ."。

因此，当任务丢失时，运行时将尝试启动具有相同任务配置的另一个执行器。

除此之外，Spark 2.0必须更快。

还可以检查执行器和主机的内存配置。

希望能有所帮助。

相关内容