2016-01-13 137 views
1

我在远程集群上运行YARN下的Spark安装,并在我和头节点之间有防火墙。我可以用一个ssh隧道接入到头节点:通过SSH隧道连接到通过YARN运行的Spark

> ssh -N -f -L 10000:remotenode:10000 between_machine 

与此设置的作品,例如,访问HiveServer2上remotenote运行。如果星火在集群模式下运行,我需要做的只是在7077端口相同,直接pyspark客户localhost

> ssh -N -f -L 7077:remotenode:7077 between_machine 
> ./pyspark --master spark://localhost:7077 

我如何能做到这一点星火纱线调度下运行?

回答

-1

如果你正在寻找一个端口连接,这里是从doc报价://:4040在Web浏览器

你可以通过简单地打开 HTTP访问该界面。如果多个SparkContexts 正在同一主机上运行,​​它们将绑定到从4040(4041,4042等)开始的连续端口 。

如果你只是寻找一个更普遍的方式去通过ssh“隧道”的主持人,你可以尝试的ssh工作作为SOCKS代理:

ssh [email protected] -D 20000 

,然后配置你的浏览器连接通过socks proxy(host - localhost,port - 20000)。

+0

谢谢。端口4040是连接到远程pyspark的端口还是仅用于webui?我需要远程提交作业,而不是访问webui。 – Ivan