我有几个问题:
- 在具有不同输入长度的 seq 到 seq 模型中,如果您不使用注意力掩码,RNN 最终可能会计算填充元素的隐藏状态值?因此,这意味着注意力面具是强制性的,否则我的输出会出错吗?
- 那么如何处理不同长度的标签,假设我已经填充了批量传递它。现在我不希望我的填充元素对我的损失产生影响,那么我如何忽略它呢?
- 不,不一定。RNN 采用时间序列并每次计算隐藏状态。您可以强制 RNN 停止,而不是计算填充元素的隐藏状态值。
你可以使用动态RNN。 在这里阅读:什么是TensorFlow中的动态RNN?