我按照下一个tutorial来训练物体检测TensorFlow 1.3模型。我想在Google云上重新训练faster_rcnn_resnet101_coco或faster_rcnn_inception_resnet_v2_atrous_coco模型与我的小数据集(1个类,约100个示例)。我已经改变了许多类和PATH_TO_BE_CONFIGURED,正如相关教程中所建议的config files.为什么我在谷歌云上的培训模型中遇到内存异常ml?
数据集:12个图像,4032×3024,10-20个标记的每个图像的边界框。
为什么我会出现内存异常?
副本主0跑出内存不足,并用247
非零状态退出请注意,我尝试了不同的配置:
- 规模梯队BASIC_GPU
- default config yaml
定制yaml使用更多内存的实例
trainingInput: runtimeVersion: "1.0" scaleTier: CUSTOM masterType: complex_model_l workerCount: 7 workerType: complex_model_s parameterServerCount: 3 parameterServerType: standard
可能是课程数量太多,或者您喂食的图片太大。 – fabrizioM
我只有一个班。也许图像太大了? (4032×3024) –