1
咖啡可以做到这一点。由于某一层神经网络需要较大的学习速率,而conv层需要很小的lr。如何控制不同的层在链接器中有不同的lr,以便优化器可以根据相应的lr进行更新?如何设置chainer中单个链接/函数的学习率?
咖啡可以做到这一点。由于某一层神经网络需要较大的学习速率,而conv层需要很小的lr。如何控制不同的层在链接器中有不同的lr,以便优化器可以根据相应的lr进行更新?如何设置chainer中单个链接/函数的学习率?
您可以覆盖hyperparam
为update_rule
每一个参数,它指定optimizer
的更新策略,像下面的链接,
model.l1.W.update_rule.hyperparam.lr = 0.01
有关详细信息,我已经回答了同样的问题在
How to implement separate learning rate or optimizer in different layer in Chainer?
顺便说一句,chainer's Function没有任何parameter
被更新,t hus功能没有update_rule
。
我很抱歉再次遇到你。当我设置model.l1.W.update_rule.hyperparam.lr = 0.01。如何在设置单个图层的学习率时应用“每个时代之后的衰落”? – machen
您可以创建自己的“扩展”功能来更改这些值。 请参阅https://gist.github.com/corochann/22ae506123805e1ddece529d8db5b692,例如您的自定义扩展学习率控制。 – corochann