Hive查询在Spark 2.0中运行得非常慢



我在下面有一个简单的HIVE查询,我们有一个用例,我们将并行运行多个HIVE查询,在我们的情况下,它是16(我们机器中的核心数,使用scala PAR数组)。在Spark 1.6中,它在10秒内执行,但在Spark 2.0中,相同的查询需要5分钟。

"select * from emp as e join dept as d on .dept_id = t.dept_id where .dept_id = 100 "

谁能告诉我是怎么回事?为什么要这么长时间?

问候,杰伊

在1.6中需要几秒而在2.0中需要几分钟的查询通常是关于任务错误的,您可以在日志文件中看到它。你可能会看到类似"任务丢失……"在. ."。

因此,当任务丢失时,运行时将尝试启动具有相同任务配置的另一个执行器。

除此之外,Spark 2.0必须更快。

还可以检查执行器和主机的内存配置。

希望能有所帮助。

相关内容

  • 没有找到相关文章