我正在使用由slurm管理的集群运行一些yarn/hadoop基准。为此,我在由slurm分配的节点上启动hadoop服务器,然后在其上运行基准测试。我意识到这不是运行生产hadoop集群的预期方式,但需要。Slurm:在salloc vs srun下执行的代码有什么区别
要做到这一点,我开始写一个脚本,运行srun例如srun -N 4 setup.sh
。该脚本写入配置文件并在分配的节点上启动服务器,其中编号最小的机器充当主节点。这一切正常,我可以运行应用程序。
但是,因为我想启动服务器一次,然后启动多个应用程序,而不必在开始时重新启动/编码所有内容,我想使用salloc
代替。我原以为这是一个简单的例子,运行salloc -N 4
,然后运行srun setup.sh
。不幸的是,这不起作用,因为不同的服务器无法相互通信。任何人可以向我解释在使用srun
和使用salloc
然后srun
之间的操作环境有什么不同?
非常感谢
丹尼尔
感谢澄清,丹尼尔。 –
您还应该注意原始来源https://groups.google.com/forum/#!topic/slurm-devel/wKaUEOzuQq4 –