3

在指定“scale-tier STANDARD_1”后,使用REMOTE分布式命令运行张量流: 。批次运行失败.... 现在,我只能用简单的单节点运行“规模级= BASIC”谷歌毫升引擎秤级未在远程分布式培训中运行

gcloud ml-engine jobs submit training census_20171005_162623 
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job- 
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ -- 
region us-central1 -- --train-files 
gs://cloudml-public/census/data/adult.data.csv --eval-files 
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000 
--eval-steps 100 

我得到的错误是

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error. 

从日志:例外的gsutil命令 '[' 的gsutil”, '-q', 'CP',
u'gs后

重试:// dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/TRAI NER-0.0.0.tar.gz”, u'trainer-0.0.0.tar.gz ']' 返回非零退出状态1.

大师没有成功初始化和copued包“ trainer-0.0.0.tar.gz“ 但是,当副本复制包运行时发生问题。 似乎ML工作流程失败,以处理副本清理.... 复制品试图在运行之前再次清理作业目录 “gs:// dextest/census_20171005_162623” 。

发生错误后,主复制包和 副本失败拿起包运行。

我CommandException:没有匹配的网址: GS:gsutil会异常命令 '[' 后的gsutil //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz è重试”, '-q' ,'cp', u'gs://dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz', u'trainer-0.0.0.tar.gz']'返回的非零退出状态1.
undefined

回答

1

从您的错误信息中可以明显看出年龄(“副本工作者1以非零状态退出1.终止原因:错误。”)您有一些编程错误(语法,未定义等)。

检查return code table

Return code -------------Meaning--------------- Cloud ML Engine response 

0 Successful completion Shuts down and releases job resources. 
1 - 128 Unrecoverable error Ends the job and logs the error. 

找到了这个错误并修复它,然后再试一次。

我建议在您在云中提交之前在本地运行您的任务(如果您的配置支持)。如果您发现任何错误,您可以在本地机器上轻松修复。