Seq2seq LSTM无法产生合理的摘要



我正在用 keras 训练编码器-解码器 LSTM 用于文本摘要和具有以下架构的 CNN 数据集

双向编码器-解码器LSTM的图片

  1. 我正在使用 skip-gram 和

  2. 然后,我用零填充输入序列,以便所有文章的长度相等

  3. 我在每个摘要中放置一个 1 的向量作为"开始"标记

  4. 稍后在解码器输出中使用MSE,RMSProp,tanh激活

  5. 训练:20 个周期,batch_size=100,clip_norm=1,辍学=0.3,hidden_units=256,LR=0.001,训练示例=10000,validation_split=0.2

  6. 网络训练、训练和验证 MSE 下降到 0.005,但是在推理过程中,解码器不断重复几个没有意义的单词,并且远不及真正的摘要。

我的问题是,我的训练方法、填充、损失函数、数据大小、训练时间是否存在根本性错误,以至于网络无法泛化?

  • 您的模型看起来不错,除了损失函数。我无法弄清楚MSE如何应用于单词预测。交叉熵损失在这里看起来是一个自然的选择。

  • 生成的单词重复可能是由解码器在推理时的工作方式引起的:您不应该简单地从分布中选择最可能的单词,而应该从中抽。这将给生成的文本带来更多差异。开始查看光束搜索

  • 如果我要选择一种技术来提高序列到序列模型的性能,那肯定是注意力机制。有很多关于它的帖子,例如,您可以从这个开始。

相关内容

  • 没有找到相关文章

最新更新