我第一次使用spark。我已经在具有10个节点的群集上安装了Hadoop 2.7。在我的主节点,以下是流程运行:如何在10个节点集群上运行Spark SqlSql数据库
[email protected]:~$ jps
20102 ResourceManager
19736 DataNode
20264 NodeManager
24762 Master
19551 NameNode
24911 Worker
25423 Jps
现在,我想写星火SQL以1 GB的文件,这是在HDFS已经存在做了一定的计算。
如果我进入火花贝壳我的主节点上: spark-shell
,并编写以下查询,将它只是在我的主机上运行,还是会使用所有10个节点的工人呢?
scala> sqlContext.sql("CREATE TABLE sample_07 (code string,description string,total_emp int,salary int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TextFile")
如果不是,我需要做些什么才能使我的Spark Sql使用完整群集?
取决于您的Spark环境是如何设置的。 – morfious902002
Hi @ morfious902002: 我使用下面的链接进行设置。 https://www.quora.com/How-do-I-install-Apache-Spark-on-Yarn-Cluster –