2016-05-15 231 views

回答

6

这个进来的有梯度下降训练神经网络的上下文。由于我们通常使用随机或小批量梯度下降来训练神经网络,因此并不是所有训练数据都用于每个迭代步骤。

随机和小批量梯度下降在每次迭代中使用batch_size数量的训练样例,因此在某些时候您将使用所有数据进行训练并可从数据集的开始处重新开始。

考虑到一个时间点是整个训练集中的一个完整通道,意味着它是梯度下降更新的多次迭代,直到您将所有数据显示给NN,然后重新开始。

+0

一个完整的通行证是做什么的?如果您使用完全相同的训练数据,为什么需要多个完整的传球?我认为一次通过会发现梯度下降的最小误差。 – mskw

+0

@mskw渐变下降是一种迭代算法,它在一次迭代中找不到最小值。 –

+0

那么时代与梯度下降有什么关系? – mskw

0

Epoches是单遍通过整个训练数据集。 传统梯度下降法计算损失函数的梯度与参数有关的给定数量的历元的整个训练数据集。

+0

什么是单程?什么一次过? – mskw

+0

单程从第一层访问所有神经元,然后是隐藏层,然后是最后/输出层。 – Naren

+0

访问?它和单程一样含糊不清。你是指单梯度下降迭代? – mskw