当我尝试使用此示例代码训练在谷歌云ML我的模型:谷歌云ML退出与245非零状态训练
import keras
from keras import optimizers
from keras import losses
from keras import metrics
from keras.models import Model, Sequential
from keras.layers import Dense, Lambda, RepeatVector, TimeDistributed
import numpy as np
def test():
model = Sequential()
model.add(Dense(2, input_shape=(3,)))
model.add(RepeatVector(3))
model.add(TimeDistributed(Dense(3)))
model.compile(loss=losses.MSE,
optimizer=optimizers.RMSprop(lr=0.0001),
metrics=[metrics.categorical_accuracy],
sample_weight_mode='temporal')
x = np.random.random((1, 3))
y = np.random.random((1, 3, 3))
model.train_on_batch(x, y)
if __name__ == '__main__':
test()
,我得到这个错误:
The replica master 0 exited with a non-zero status of 245. Termination reason: Error.
详细的错误产量大,所以我把它粘贴here in pastebin
在console.google.com中,转到汉堡包菜单,选择“ML Engine> Jobs”,然后单击您的工作。滚动到底部。你的内存使用情况如何?你可以有OOMed吗? – rhaertel80
这个特殊的工作'这个图表没有数据'。但对于我的其他工作来说,这更复杂,并且具有相同的错误,内存使用量为0.0359 – Alex
日志输出表明您正在遇到分段错误。通过您的Cloud ML作业,您可以指定要使用哪个版本的TensorFlow? –