2017-08-05 48 views
-1

我已经训练了5天的文本总数与在项目页面中推荐的参数。我使用了超过300万篇文章总结对的培训集。textsum不会聚合

起初running_average_loss从9左右缓慢减少到4左右,但之后,running_average_loss值变化很大,可以高达5以上,但有时可以低至1。该模型在训练集中包含一些文章,但输出结果远离引用的摘要,我很困惑。有人能分享他们的经验吗?

我很困惑与下列问题

  1. running_average_loss是小于10我每次运行时,是正常的吗?
  2. 由于running_average_los的变化范围很大,没有收敛的迹象,是否过度配合?
  3. 训练足够好的模型或何时停止训练需要多长时间?是否有迹象表明停止训练?因为从图中

enter image description here

回答

0

我不认为你没有足够的训练,它说50K的步骤,甚至有看到50K * 64个样本的64网最大批量大小。 这比您拥有的3百万个样本要小得多。该网络甚至没有看到所有的样品一次。因此,您需要再次通过相同的样本进行多次迭代才能更好地收敛。

如果您考虑平均损失,损失1将是一个相当不错的损失,我相信。我认为你的网络运行时采用softmax丢失。 我有兴趣知道你有3百万个样品。