2014-08-27 50 views
1

我指的是以下链接:Hive Support for Spark有人可以解释一下:“Spark SQL支持与Hive不同的用例。”

它说:“星火SQL支持不同的使用情况比蜂巢”

我不确定为什么会这样。这是否意味着作为Hive用户我不能通过Spark SQL使用Spark执行引擎?

一些问题:

  • 星火SQL使用蜂巢查询分析器。所以它会理想地支持所有的Hive功能。
  • 它会使用Hive Metastore吗?
  • Will Hive会使用Spark优化器还是会构建自己的优化器?
  • Will Hive会将MR作业转换为Spark吗?或者使用其他范例?

回答

1

Spark SQL旨在允许在Spark的机器学习库上使用SQL表达式。它允许您将SQL用作工具(等等)来构建高级分析(例如ML)应用程序。它不是Hive的直接替代品,这对于批处理/ ETL来说是最好的选择。

但是,也有上行工作可以让Spark作为Hive的通用数据处理后端。该工作可以让您充分利用Spark for Hive专用的用例。

+0

谢谢。几个问题: - Spark SQL使用Hive Query解析器。所以它会理想地支持所有的Hive功能。它会使用Hive Metastore吗? - Hive会使用Spark优化器,还是会构建自己的优化器? - Hive会将MR作业转换成Spark吗?或者使用其他范例? – Venkat 2014-08-28 15:52:39

+0

IIRC,Spark SQL将使用Hive Metastore yes,因此您将能够运行所有Hive查询。至于Hive-on-Spark,请参阅[本博文](http://blog.cloudera.com/blog/2014/07/apache-hive-on-apache-spark-motivations-and-design-principles/) ,其中描述了设计原则。 – 2014-08-28 23:37:51

相关问题