如何在MxNet中使用自适应学习率

学习率是影响我的网络的关键。当我定义lr = 0.05时，火车/验证准确性振荡严重，但是lr = 0.025直到Epoch [30]之前我无法获得任何效果。所以我记得caffe的自适应学习率，起初我选择了一个基础lr = 0.1，随着训练的进行，lr衰减到0.05，然后是0.025和更小。 MxNet是否有此策略？我如何使用它？如何在MxNet中使用自适应学习率

来源

2017-02-23 Lolith

你有几个选项来做到这一点：

一个是使用回调功能在每个批次/时代的结束：

sgd_opt = opt.SGD(learning_rate=0.005, momentum=0.9, wd=0.0001, rescale_grad=(1.0/batch_size)) 
model = mx.model.FeedForward(ctx=gpus, symbol=softmax, num_epoch=num_epoch, 
       optimizer=sgd_opt, initializer=mx.init.Uniform(0.07)) 
def lr_callback(param): 
    if param.nbatch % 10 == 0: 
     sgd_opt.lr /= 10 # decrease learning rate by a factor of 10 every 10 batches 
    print 'nbatch:%d, learning rate:%f' % (param.nbatch, sgd_opt.lr) 

model.fit(X=train_dataiter, eval_data=test_dataiter, batch_end_callback=lr_callback)

另一种方法是使用一个诸如AdaGrad或ADAM的optimizers

model = mx.model.FeedForward(
     ctx    = [mx.gpu(0)], 
     num_epoch  = 60, 
     symbol   = network, 
     optimizer  = 'adam', 
     initializer  = mx.init.Xavier(factor_type="in", magnitude=2.34)) 

model.fit(X= data_train)

来源

2017-02-26 00:13:50 Guy

如何在MxNet中使用自适应学习率

回答

相关问题