2016-11-18 404 views
0

我有一个简单的HIVE查询,我们有一个用例,我们将并行运行多个HIVE查询,在我们的例子中它是16(我们机器中的核心数量,使用scala PAR阵列)。在Spark 1.6中,它在10秒内执行,但在Spark 2.0中,相同的查询需要5分钟。Hive查询在Spark 2.0中运行非常缓慢

“从EMP选择*为e加入部门为d的o.dept_id = t.dept_id其中o.dept_id = 100”

有人可以帮助我,这可能是错误的。为什么它这么长时间?

方面,周杰伦

+0

你能否确认使用Web UI并行执行查询? –

回答

0

对于一个查询,只需几秒钟在1.6采取分钟2.0通常是有关任务的错误,你可以看到它在日志文件中,你可能会看到类似“失落的任务。在..“

所以当任务丢失时,运行时会尝试s向另一个执行者提供相同的任务配置。

除此之外,Spark 2.0必须更快。

也可以检查您的执行器和主设备的内存配置。

希望它有帮助。