2017-03-07 90 views
1

我们有cloudera 5.2,用户想要充分发挥Spark的潜力(在分布式模式下可以利用HDFS获得数据局部性),该服务已经已安装并在cloudera manager状态(在主页中)中可用,但在单击该服务时,然后单击“实例”时,它只显示历史服务器角色,在其他节点中显示网关服务器角色。从我对Spark的体系结构的理解中可以看出,您有一个主节点和工作节点(与HDFS datanodes一起生活),所以我在cloudera manager中尝试了“添加角色实例”,但只有“网关”角色可用。如何将Sparks工作者节点(或执行者)角色添加到拥有HDFS datanode的主机?或者是不必要的(我认为是因为纱线,纱线负责创建执行者和应用程序主人)? masternode的情况如何?我需要配置什么,以便用户可以在其全分布式模式下使用Spark?如何使用纱线在cloudera上添加Spark worker节点

回答

1

主角色和辅助角色是Spark Standalone服务的一部分。你可以选择Spark来运行YARN(其中Master和Worker节点不相关)或Spark(Standalone)。

由于您在Cloudera Manager中启动了Spark服务而不是Spark(Standalone),因此Spark已经使用YARN。在Cloudera Manager 5.2及更高版本中,有两个独立的Spark服务(Spark和Spark(Standalone))。除了Spark历史记录服务器角色外,Spark服务还将Spark作为仅具有网关角色的YARN应用程序运行。

如何将Sparks工作节点(或执行器)角色添加到主机,其中 您有HDFS datanodes?

不需要。这些主机上只需要网关角色。

CM Documentation报价:

在Cloudera的管理器网关的角色照顾客户端配置的传播到集群中的其他主机。因此,请确保将网关角色分配给群集中的主机。如果您没有网关角色,则不会部署客户端配置。

相关问题