2
我有以下情形:运行EMR集群外星火客户端和连接到YARN
- 我在一家大公司工作。
- 我们有一个运行在YARN上的Spark/Hadoop堆栈的EMR集群。
- 我可以通过SSH连接到集群的主节点,然后从那里创建Spark shell或者Spark任务,并将其提交给Spark集群,没有任何问题。
- 但是,我想在我公司的服务器上运行Spark客户端,因为我们的所有代码库都位于那里,因此我有能力在该服务器上进行主动开发,因为我可以克隆并推送到位于该服务器上的存储库在我公司的服务器上。我不想将所有的公司代码转移到AWS的主节点上进行主动开发。
- 那么,如何修改Spark设置以使用AWS的YARN作为资源管理器?
- 我试图从EMR集群的主节点将Spark安装(在
/user/lib/spark
)和HADOOP_CONF_DIR
(在/etc/hadoop/conf
)复制到我公司的服务器,但Spark不识别YARN。
谢谢。
修改:在主题行和正文中将'driver'更改为'client'。