序列到序列模型训练



我有几个问题:

  1. 在具有不同输入长度的 seq 到 seq 模型中,如果您不使用注意力掩码,RNN 最终可能会计算填充元素的隐藏状态值?因此,这意味着注意力面具是强制性的,否则我的输出会出错吗?
  2. 那么如何处理不同长度的标签,假设我已经填充了批量传递它。现在我不希望我的填充元素对我的损失产生影响,那么我如何忽略它呢?
  1. 不,不一定。RNN 采用时间序列并每次计算隐藏状态。您可以强制 RNN 停止,而不是计算填充元素的隐藏状态值。

你可以使用动态RNN。 在这里阅读:什么是TensorFlow中的动态RNN?

相关内容

  • 没有找到相关文章

最新更新