Hive查询在Spark 2.0中运行非常缓慢

我有一个简单的HIVE查询，我们有一个用例，我们将并行运行多个HIVE查询，在我们的例子中它是16（我们机器中的核心数量，使用scala PAR阵列）。在Spark 1.6中，它在10秒内执行，但在Spark 2.0中，相同的查询需要5分钟。Hive查询在Spark 2.0中运行非常缓慢

“从EMP选择*为e加入部门为d的o.dept_id = t.dept_id其中o.dept_id = 100”

有人可以帮助我，这可能是错误的。为什么它这么长时间？

方面，周杰伦

你能否确认使用Web UI并行执行查询？ –

对于一个查询，只需几秒钟在1.6采取分钟2.0通常是有关任务的错误，你可以看到它在日志文件中，你可能会看到类似“失落的任务。在..“

所以当任务丢失时，运行时会尝试s向另一个执行者提供相同的任务配置。

除此之外，Spark 2.0必须更快。

也可以检查您的执行器和主设备的内存配置。

希望它有帮助。

2016-11-27 11:48:16 myuce

回答