0
我使用adam_sgd optimiser训练神经网络,我有麻烦的参数在功能与参数关联在报告中为亚当报道。更具体地说,参数alpha,beta1,beta2和epsilon与CNTK实施Adam中的学习速率和动量有什么关系?在CNTK实施ADAM优化的,参数α,β1,β2和小量如何与学习速率和动量
我使用adam_sgd optimiser训练神经网络,我有麻烦的参数在功能与参数关联在报告中为亚当报道。更具体地说,参数alpha,beta1,beta2和epsilon与CNTK实施Adam中的学习速率和动量有什么关系?在CNTK实施ADAM优化的,参数α,β1,β2和小量如何与学习速率和动量