声明:我也是新手,在很多方面可能都是错误的。
我是一名在tensorflow深度学习的新手。我尝试了一个 seq2seq模型示例代码。
我想了解:
什么是图层,图层的大小和批量 大小的数字,我可以理解,要能测试满意的精度seq2seq模型 开始的最小值?
我认为这只能取决于您的实验。找出适用于您的数据集的内容。我听到了几条建议:如果可以,请不要选择自己的架构 - 找到经过尝试和测试的其他人。似乎更深层的网络比更广泛的更好,如果你要选择它们也是如此。如果你有记忆,我也认为更大的批量更好。我听说最大化网络规模,然后正规化,所以你不要过度使用。
我有这样的印象,这些都是很大的问题,没有人真正知道答案(可能是非常错误的!)。我们都喜欢选择图层大小/图层数量的巧妙方式,但没有人确切知道如何改变这些东西影响训练。
此外,最小的基础设施设置需要的内存和CPU的能力,在几个小时的最长时间内训练这个深度的学习模型。
根据您的模型,这可能是一个不合理的要求。似乎有些模型训练数百甚至上千小时(在GPU上)。
我的经验 被训练seq2seq模型来构建一个神经网络与2层尺寸900和批量大小的花了3天左右到4GB的RAM训练,3GHz的英特尔酷睿i5单核 处理器。花了大约1天的时间在8GB RAM,3GHz Intel i5 单核处理器上训练。这对最快的培训有帮助 - 更多 内存容量,多个CPU内核或CPU + GPU组合内核?
我相信GPU最能帮助你。我看过一些使用CPU的东西(异步的演员评论员或其他什么东西?他们没有使用锁定),看起来CPU好一些,但我认为GPU会给你带来巨大的加速。