2017-02-18 83 views

回答

2

第一个问题是:为什么要使用SGD(我在这里假设)。线性回归有更多专门的学习过程,部分不需要这种超参数调整。也许你处于一个非常大的范围内,那么新加坡元是一个有效的方法。

假设基于SGD学习是要走的路:

  • 您应该使用某种形式的学习进度的
    • 添加至少一个学习速率衰减,从而降低了学习率例如在每个时期之后的因子为0.9(是的,多一个超参数)
    • 尝试使用某种动量,例如这是凸优化开发涅斯捷罗夫动量(你的情况是凸的),并拥有强大的保证
      • 这种势头在非凸设置
      • 最深度学习库甚至还流行应该提供这种乱-THE盒
  • 你可以尝试像自适应学习速率基于算法:
    • 亚当,AdaDelta,AdaGrad,...
    • 这些尝试从选择那些LR-超参数卸下包袱,同时仍试图尽可能快地
      • 当然收敛他们的启发式(严格来说),但他们似乎也适用于大多数人(虽然优化SGD是大部分时间是最好的)
      • 最深度学习库应该提供这种外的开箱
  • 使用专门的线性模型软件,如liblinear或其他

还有一件事,因为我很惊讶,很容易观察这个简单问题上的分歧:正常化您的输入!