注意解码器RNN没有MAX_LENGTH

摘自 PyTorch Seq2Seq 教程，http://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html#attention-decoder

我们看到注意力机制严重依赖于MAX_LENGTH参数来确定attn -> attn_softmax -> attn_weights的输出维度，即

class AttnDecoderRNN(nn.Module):
def __init__(self, hidden_size, output_size, dropout_p=0.1, max_length=MAX_LENGTH):
super(AttnDecoderRNN, self).__init__()
self.hidden_size = hidden_size
self.output_size = output_size
self.dropout_p = dropout_p
self.max_length = max_length
self.embedding = nn.Embedding(self.output_size, self.hidden_size)
self.attn = nn.Linear(self.hidden_size * 2, self.max_length)
self.attn_combine = nn.Linear(self.hidden_size * 2, self.hidden_size)
self.dropout = nn.Dropout(self.dropout_p)
self.gru = nn.GRU(self.hidden_size, self.hidden_size)
self.out = nn.Linear(self.hidden_size, self.output_size)

更具体地说

self.attn = nn.Linear(self.hidden_size * 2, self.max_length)

我知道MAX_LENGTH变量是减少需要在AttentionDecoderRNN中训练的参数的机制。

如果我们没有预先确定MAX_LENGTH。我们应该用什么值初始化attn层？

会是output_size吗？如果是这样，那么这将学习对目标语言中完整词汇的关注。这难道不是Bahdanau(2015)关注论文的真正意图吗？

注意调制解码器的输入。也就是说，注意力调制与输入序列长度相同的编码序列。因此，MAX_LENGTH应该是所有输入序列的最大序列长度。

相关内容

最新更新

热门标签：