如何使用纱线在cloudera上添加Spark worker节点

我们有cloudera 5.2，用户想要充分发挥Spark的潜力（在分布式模式下可以利用HDFS获得数据局部性），该服务已经已安装并在cloudera manager状态（在主页中）中可用，但在单击该服务时，然后单击“实例”时，它只显示历史服务器角色，在其他节点中显示网关服务器角色。从我对Spark的体系结构的理解中可以看出，您有一个主节点和工作节点（与HDFS datanodes一起生活），所以我在cloudera manager中尝试了“添加角色实例”，但只有“网关”角色可用。如何将Sparks工作者节点（或执行者）角色添加到拥有HDFS datanode的主机？或者是不必要的（我认为是因为纱线，纱线负责创建执行者和应用程序主人）？ masternode的情况如何？我需要配置什么，以便用户可以在其全分布式模式下使用Spark？如何使用纱线在cloudera上添加Spark worker节点

来源

2017-03-07 Luis Leal

主角色和辅助角色是Spark Standalone服务的一部分。你可以选择Spark来运行YARN（其中Master和Worker节点不相关）或Spark（Standalone）。

由于您在Cloudera Manager中启动了Spark服务而不是Spark（Standalone），因此Spark已经使用YARN。在Cloudera Manager 5.2及更高版本中，有两个独立的Spark服务（Spark和Spark（Standalone））。除了Spark历史记录服务器角色外，Spark服务还将Spark作为仅具有网关角色的YARN应用程序运行。

如何将Sparks工作节点（或执行器）角色添加到主机，其中您有HDFS datanodes？

不需要。这些主机上只需要网关角色。

从CM Documentation报价：

在Cloudera的管理器网关的角色照顾客户端配置的传播到集群中的其他主机。因此，请确保将网关角色分配给群集中的主机。如果您没有网关角色，则不会部署客户端配置。

来源

2017-03-08 06:44:52 franklinsijo

如何使用纱线在cloudera上添加Spark worker节点

回答

相关问题