我在下面有一个简单的HIVE查询,我们有一个用例,我们将并行运行多个HIVE查询,在我们的情况下,它是16(我们机器中的核心数,使用scala PAR数组)。在Spark 1.6中,它在10秒内执行,但在Spark 2.0中,相同的查询需要5分钟。
"select * from emp as e join dept as d on .dept_id = t.dept_id where .dept_id = 100 "
谁能告诉我是怎么回事?为什么要这么长时间?问候,杰伊
在1.6中需要几秒而在2.0中需要几分钟的查询通常是关于任务错误的,您可以在日志文件中看到它。你可能会看到类似"任务丢失……"在. ."。
因此,当任务丢失时,运行时将尝试启动具有相同任务配置的另一个执行器。
除此之外,Spark 2.0必须更快。
还可以检查执行器和主机的内存配置。
希望能有所帮助。