Pytorch LSTM vs LSTMCell

在 Pytorch 中 LSTM 和 LSTMCell 有什么区别(当前为 1.1 版)？LSTMCell似乎是LSTM的一个特例(即只有一层，单向，没有dropout)。

那么，同时实现这两种实现的目的是什么？除非我遗漏了一些东西，否则使用 LSTM 对象作为 LSTMCell 是微不足道的(或者，使用多个 LSTMCell 来创建 LSTM 对象非常容易)

是的，您可以一个一个地模仿，将它们分开的原因是效率。

LSTMCell是一个接受参数的单元格：

输入形状批次×输入尺寸;
形状批次 x 隐藏维度的 LSTM 隐藏状态的元组。

它是方程的直接实现。

LSTM是在"for 循环"中应用 LSTM 单元(或多个 LSTM 单元)的层，但该循环使用 cuDNN 进行了大量优化。它的输入是

形状批量×输入长度×输入维度的三维张量;
可选地，LSTM 的初始状态，即形状批处理的隐藏状态元组×隐藏暗淡(如果 LSTM 是双向的，则为此类元组的元组)

您通常可能希望在不同的上下文中使用 LSTM 单元，而不是将其应用于序列，即创建一个在树状结构上运行的 LSTM。在序列到序列模型中编写解码器时，还会在循环中调用单元，并在解码序列结束符号时停止循环。

让我展示一些具体的例子：

# LSTM example:
>>> rnn = nn.LSTM(10, 20, 2)
>>> input = torch.randn(5, 3, 10)
>>> h0 = torch.randn(2, 3, 20)
>>> c0 = torch.randn(2, 3, 20)
>>> output, (hn, cn) = rnn(input, (h0, c0))
# LSTMCell example:
>>> rnn = nn.LSTMCell(10, 20)
>>> input = torch.randn(3, 10)
>>> hx = torch.randn(3, 20)
>>> cx = torch.randn(3, 20)
>>> output = []
>>> for i in range(6):
hx, cx = rnn(input[i], (hx, cx))
output.append(hx)

主要区别：

LSTM：参数2，代表num_layers，循环层数。有seq_len * num_layers=5 * 2个细胞。没有循环，但更多的细胞。
LSTMCell：在for循环(seq_len=5次)中，ith实例的每个输出都将是(i+1)th实例的输入。只有一个细胞，真正的复发

如果我们在 LSTM 中设置num_layers=1或再添加一个 LSTMCell，上面的代码将是相同的。

显然，在 LSTM 中应用并行计算更容易。

相关内容

最新更新

热门标签：