Seq2Seq模型中的输出投影Tensorflow

我正在通过使用seq2seq模型的tensorflow执行翻译代码。我正在关注seq2seq model的tensorflow教程。Seq2Seq模型中的输出投影Tensorflow

在该教程中，有一部分解释了一个名为output projection的概念，它们在seq2seq_model.py代码中实现。我了解代码。但我不明白这个输出投影部分在做什么。

如果有人能解释我在这个输出投影背后发生了什么，这将是非常棒的。

谢谢！

2016-09-19 Ramesh-X

在内部，一个神经网络对一些大小的密集向量进行操作，通常是256,512或1024个浮点数（这里假设为512）。但最后它需要从词汇中预测一个词，这个词通常要大得多，例如40000个单词。输出投影是将内部表示转换（投影）到最大线性层的最后一个线性层。因此，例如，它可以由一个512 x 40000参数矩阵和一个用于偏向量的40000参数组成。它在seq2seq代码中保持分离的原因是某些损失函数（例如，采样的softmax损耗）需要直接访问最终的512个大小的向量和输出投影矩阵。希望有所帮助！

来源

2016-09-19 16:52:10

为什么要循环输出投影的桶数？ self.outputs [b] = [tf.matmul（output，output_projection [0]）+ output_projection [1]用于在self.outputs [b中输出]]' –

Seq2Seq模型中的输出投影Tensorflow

回答

相关问题