2015-03-31 60 views
4

我是新的群集计算,我试图在Spark中设置一个最小的双节点群集。 我还有点困惑:我是否必须首先设置完整的Hadoop安装?Spark是否包含Hadoop版本?Hadoop的HDFS与星火

我发现的关于Spark的东西并没有真正说明这一点。我明白Spark是Hadoop的扩展,而不是取代Hadoop,但是如果它需要独立运行的Hadoop系统,我不会明白。

我需要一个HDFS,是否足够使用Hadoop的文件系统部分?

难道有人指出这可能是明显的事情吗?

回答

4

Apache Spark独立于Hadoop。 Spark允许您使用不同的数据源(包括HDFS),并且可以在独立群集中运行,也可以使用现有的资源管理框架(例如YARN,Mesos)运行。

所以,如果您只对Spark感兴趣,则无需安装Hadoop。

+0

但是,如果您打算使用Hadoop,必须针对Hadoop二进制文件编译Spark。查看更多信息:https://etushar89.wordpress.com/2014/12/28/building-apache-spark-against-specific-hadoop-version/ – Freddy 2015-03-31 13:06:28

+1

感谢迄今。 如果我想使用HDFS,我将不得不安装整个Hadoop软件包,但如果我只关心HDFS,可能不需要经过整个Hadoop配置步骤,对吧? – toobee 2015-03-31 13:22:53

+0

如果你打算使用它(YARN),你也应该关心资源管理器。如果你打算在独立模式下运行Spark,我明白你并不需要它。 – 2015-03-31 14:14:42