回答
总的来说,分布式TensorFlow方案将正是 - 分布式TensorFlow,以最小的 - 甚至没有 - 云计算的具体变化。 tensorflow.org上分布式TensorFlow的最佳资源是this tutorial。本教程将向您介绍做事的低级方式。
还有一个更高级的API,目前在contrib中(所以API可能会改变,将在未来版本中移出contrib),这将简化您为分布式培训编写的样板代码的数量。官方教程是here。
一旦您了解了常规TensorFlow位(无论是高级API还是低级API),您的代码中必须存在一些特定元素才能使其在CloudML Engine上运行。对于低级别的TensorFlow API,您需要解析TF_CONFIG环境变量来设置您的ClusterSpec。这在this example(特别参见this代码块)中被举例说明。
更高级别的API的一个优点是,所有的解析已经为你照顾。你的代码应该一般工作。见this example。重要的一点是,您需要使用learn_runner.run()(请参阅this一行),这将在本地和云中工作以训练您的模型。
当然,还有其他的框架,例如TensorFX。
在适当地构建了代码之后,只需选择适当的scale tier,启动您的培训工作时就有多台机器。 (请参阅Chuck Finley's答案举例)
希望它有帮助!
您的问题在Run Distributed Training in the Cloud的参数“scale-tier”中回答吗?
gcloud ml-engine jobs submit training $JOB_NAME \
--job-dir $OUTPUT_PATH \
--runtime-version 1.0 \
--module-name trainer.task \
--package-path trainer/ \
--region $REGION \
--scale-tier STANDARD_1 \
-- \
--train-files $TRAIN_DATA \
--eval-files $EVAL_DATA \
--train-steps 1000 \
--verbose-logging true
以下是有关分布式培训信息的直接链接:https://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-dist – rhaertel80
我认为这个作业提交将在稍后的阶段,一旦我修改了我的代码,按照分布式tensorflow。 – Appu
我已经能够在分布式环境中运行代码,但截至目前,云中的每台计算机都在接收完整数据并在平均后生成输出。我想知道如何将分布式数据提供给云中的每台计算机 – Appu
如果您使用Tensorflow Estimators构建了您的模型,则需要做的更改非常少。你基本上可以将你的代码插入this boilerplate code。
- 1. 如何在分布式模式下运行TensorFlow的示例代码?
- 2. 在谷歌云上运行GPU的错误符号日志ML
- 3. 65%的CPU和15%的内存与Tensorflow在谷歌云ML
- 4. 在AWS上以分布式模式运行OrientDB不起作用
- 5. 在谷歌云再培训盗当ML
- 6. 谷歌云上的Tensorflow Keras API
- 7. 在分布式集群上运行python代码
- 8. 分布式Tensorflow重装模式失败
- 9. 谷歌云ML scipy.misc.imread返回<PIL.JpegImagePlugin.JpegImageFile>
- 10. 谷歌云ML没有教练
- 11. 请求谷歌云ML超时
- 12. 在谷歌云上的工作人员之间分配数据ML
- 13. 在Google云上运行代码时,权限被拒绝错误ML
- 14. 谷歌云ML引擎:创建模型版本失败
- 15. 如何在云上运行云ML预处理?
- 16. 发布模式跳过代码部分
- 17. 如何在android中的发布模式下运行代码块
- 18. 设置谷歌云外壳云环境ML
- 19. 谷歌云端点模块到谷歌云模块与GCM?
- 20. 谷歌云消息和iOS位代码
- 21. 如何从运行谷歌云ml培训实例收集性能指标?
- 22. 谷歌毫升引擎秤级未在远程分布式培训中运行
- 23. 在谷歌云平台上连接到谷歌云sql失败
- 24. 谷歌云存储运行时错误
- 25. 在虚拟分布式模式下运行Hadoop示例vm
- 26. 最简单的方式在云中运行Python代码
- 27. 谷歌分析代码
- 28. 如何运行tensorflow分布式mnist示例
- 29. 运行分布式tensorflow例如用错误
- 30. 无法运行tensorflow分布式MNIST测试
非常感谢。它给了我一个起点,因为我对如何修改我的代码感到困惑。 – Appu
我已经能够在分布式环境中运行代码,但截至目前,云中的每台计算机都在接收完整数据并在平均后生成输出。 我想知道如何将分布式数据提供给云中的每台机器。 – Appu
在gogle云ML上提交作业时,出现主要培训python文件(即task.py)无法从util文件夹中的python脚本导入函数的错误。 一般来说,我们写:从util.xyz进口abc 这不会被调用在主task.py – Appu