小贝子编程

SEQ2SEQ模型的训练方法选择

本文关键字：方法选择模型 SEQ2SEQ deep-learning sequence-to-sequence attention-model
更新时间 : 2023-09-11
英文 : Training Method Choice for seq2seq model

您可能会推荐哪种训练方法来训练基于注意力的序列以序列神经机器翻译模型？SGD，Adadelta，Adam还是更好的东西？请给出一些建议，谢谢。

使用Adam或Adadelta或Rmsprop等自适应梯度算法。我倾向于使用亚当，并始终与剪切的梯度结合。

自适应梯度算法的每个参数具有学习率。当您拥有某些参数可能更稀疏(提高其学习率(或稀疏(降低其学习率(的模型时，这将非常有帮助。如果您正在使用诸如神经机器翻译之类的东西，那么这种稀疏是一个问题。我想亚当在计算上更昂贵，但给出了良好的结果。

最新更新

WMI wbemtest错误0x80070005访问被拒绝
如何从Android应用程序发送数据到Node.js
单元格列表与LazyVGrid有时消失
flutter stripe付款错误尚未初始化付款单
在使用@ pip安装需求时，部署到heroku失败
setTimeout结束后如何填充元素?
如何在pandas中插入和填充计算值的行?
你如何找到一台PC上的gpu数量?
使用client_states作为状态的自定义聚合器
带相关函数的Numba提前(AOT)编译
Azure Function SQL输入绑定在AddAsync上失败
Net:: HTTP.HTTPS Headers get失败
如何清除fileInput数据和相应的对象在R Shiny?
salesforce获取闪电组件中的帐户id
如何使用SQLite设置和访问Shopify会话?
c语言 - 编译PostgreSQL扩展，获取"error: ‘work_mem’ undeclared (first use in this function)"
JSON String {String: String[]}的最佳Typescript类型
如何在SwiftUI中播放svga动画
React search and filter: TypeError: setFilterFn不是一个函数
int数组在Java中不包含期望的值
Azure Portal ： Azure Cosmos Db Account ： Networking ： "There is already an operation in progress tha
未正确激活小数最大值验证
在arm模板输出中使用条件语句形成SQL DB连接字符串
c-操作系统互斥
c -在多应用程序CMake项目中，在静态库中包含特定于应用程序的头文件
为集成测试/@SpringBootTest提供bean时出现BeanDefinitionOverrideExceptio
c - Shift 1和乘法vs直接移位
需要帮助并行c++程序与OpenMP
r语言 - Lmer表示重复测量
我如何将下载的图片粘贴到我的计算机在我的flutter项目中的图像文件夹中?

SEQ2SEQ模型的训练方法选择

相关内容

最新更新

热门标签：