2017-06-04 188 views

回答

2

Apache Hive数据仓库软件有助于读取,编写和管理驻留在分布式存储中的大型数据集,并使用SQL语法进行查询。

内置在Apache Hadoop之上,配置单元提供以下功能:

  • 工具能够方便地访问通过SQL数据,从而使数据仓库的任务,如提取/转换/加载(ETL),报告和数据分析。
  • 访问直接存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件
  • 通过Hive LLAP,Apache YARN和Apache Slider进行亚秒级查询检索。
  • 一种机制来对各种数据格式

强加结构凡为,Apache的火花是一种快速和通用集群计算系统。它提供Java,Scala,Python和R中的高级API以及支持通用执行图的优化引擎。它还支持一套丰富的高级工具,包括用于SQL的Spark SQL和结构化数据处理。

Spark SQL是用于结构化数据处理的Spark模块,其中内存处理是其核心。使用Spark SQL,可以从任何结构化来源读取数据,例如JSON,CSV,parquet,avro,sequencefiles,jdbc,配置单元等。

Spark SQL也可用于从现有Hive安装中读取数据。因此,Spark SQL是可用于处理任何结构化数据源的通用模块。