我知道你可以下载各种版本的Hadoop的Spark源代码(1.5.1)或预先编译的二进制文件。截至2015年10月,Spark网页http://spark.apache.org/downloads.html已针对Hadoop 2.6+,2.4+,2.3和1.X预置了二进制文件。下载哪个版本的Spark?
我不确定下载哪个版本。
我想使用AWS机器以独立模式运行Spark群集。
<EDIT>
我将运行24/7流处理。我的数据将来自Kafka流。我想过使用spark-ec2,但是因为我已经有了持久的ec2机器,所以我想我也可以使用它们。
我的理解是,由于我的持久性工作人员需要执行checkpoint()
,因此需要与主节点访问某种共享文件系统。 S3似乎是一个合理的选择。
</EDIT>
这意味着我需要访问S3,但不是hdfs。我没有安装Hadoop。
我为Hadoop 2.6预置了Spark。我可以在本地模式下运行它,例如wordcount示例。然而,每当我启动它,我收到此消息
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
这是一个问题?我需要hadoop吗?
<EDIT>
这不是作秀塞,但我要确保我明白此警告消息的原因。我认为Spark不需要Hadoop,为什么它甚至显示出来? </EDIT>
感谢您的评论。我编辑了原文。真的很感谢你的帮助 – user3240688