2016-11-16 144 views
0

我知道这个问题有点奇怪。我喜欢Hadoop & HDFS,但最近与Hive Metastore合作开发SparkSQL。不使用Hadoop/HDFS使用hive metastore服务

我想使用SparkSQL作为垂直SQL引擎来运行不同数据源(如RDB,Mongo,Elastic ...)上的OLAP查询,而不需要ETL过程。然后我在Metastore中使用相应的Hive存储处理程序将不同的模式注册为外部表。

此外,在我的工作中HDFS不被用作数据源。然后,给定Map/R已经被Spark引擎取代。这对我来说听起来Hadoop/HDFS是无用的,但是以Hive的安装为基础。我不想全部购买。

我想知道如果我只启动没有Hadoop/HDFS的Hive Metastore服务来支持SparkSQL,会发生什么样的问题。我会把自己放进丛林吗?

回答

1

你需要的是 "Hive Local Mode"(在页面中搜索“Hive,Map-Reduce和Local-Mode”)。

另外this可能会有所帮助。

只有在本地进行实验时才会提示此配置。但在这种情况下,您只需要存在Metastore。

也来自here;

Spark SQL使用Hive Metastore,即使我们不配置它时也是如此。未配置时,它将默认的Derby数据库用作Metastore。

所以这似乎是相当合法的;

  1. 安排您metastore在蜂巢
  2. 开始蜂房在本地模式
  3. 并作出星火使用蜂巢metastore
  4. 使用星火作为由蜂巢支持的所有数据源的SQL引擎。