2016-06-09 75 views

回答

2

在OSCON和PYCON最近的车间(slides)覆盖(除其他事项外)上Kubernetes运行的分布式TensorFlow。有一个GitHub repository包括必要的配置脚本和可用于与群集交互的Jupyter笔记本。

有关更多详细信息,请参阅研讨会,但其基本思想是主控人员,每个工作人员和每个参数服务器在大小为1的单独Kubernetes复制控制器中运行。Kubernetes为每个进程提供稳定的名称,可以用来构建一个tf.train.ClusterSpec,并互连不同的进程。

还有其他的方法来建立一个集群,这需要更多的配置,但本教程给出了一个很好的介绍,以一个word2vec模型建立同步训练。