小贝子编程

使用 DQN 时在 epsilon 贪婪策略中退火 epsilon

本文关键字：epsilon 策略贪婪 DQN 时在使用 reinforcement-learning
更新时间 : 2023-09-11
英文 : Annealing epsilon in epsilon-greedy policy when using DQN

使用 DQN 时，有人告诉我最好在学习之前填满整个重播内存。我想知道如何退火，如果我使用 epsilon 贪婪策略。假设重播内存大小为 10000，因此代理应在学习之前运行 10000 个步骤。我应该在 10000 步或学习开始后开始退火 epsilon？提前谢谢。

在

epsilon 贪婪策略中逐步减少 epsilon 参数的目标是从更具探索性的策略转向更具剥削性的策略。这一步，只有在代理学到了一些东西时才有意义，即当它有一些知识可以利用时。

因此，简而言之，您应该在学习开始后开始退火。

最新更新

从演示文稿中删除所有空的/未使用的形状
破坏错误取决于变量的顺序
c -试图编写一个MIPS汇编程序
消息队列推送通知/邮件应用程序?
如何在根目录下安装gitignore
我应该如何测试一个API调用拒绝是在一个上下文中?
百分比值到绝对值，反之亦然，由于整数四舍五入，转换导致不匹配
由于 NBM 的原因，我无法在 NetBeans 中下载代号一插件
如何组织项目与多个Go模块和使用Docker撰写?
蓝牙BLE设备配对后未绑定
为什么我在 Django 中显示用户配置文件的代码不起作用？
使用api平台图形查询读取空间点类型
如何处理嵌套角色中超出范围的变量
std::vector and move semantics
ImageMagick多个命令，带有不同的源和目标文件夹和文件
是否有一个特定的键进入一个字符和退出插入模式在vim vscode扩展?
c - NULL值在运行时被重新分配给垃圾
我如何将这个python函数转换为c++?
我可以用pybliometrics找到论文的通讯作者是谁，以及他们的电子邮件地址吗?
了解如何在Ruby on Rails中使用Turbo
解码mediaRecorder音频文件在Python中
节点/反应：我无法使用 multer 上传带有我的帖子的图像
Texture.loadFromFile 无法按预期工作
如何使用Url_Launcher的inAppWebView作为小部件
两个主类的子类构造函数
Spring GET Rest - 原因：预期在路径 $ 中查找具有属性 ['id'] 的对象，但找到 'net.minidev.json.JSONArray'
应用程序指标发生了什么，例如进程使用的CPU在刮擦间隔prometheus中没有被刮擦
每个脚本发送GDoc / GSheet
apoc.col .zip()的一些奇怪的结果
unboundfield对象不可调用

使用 DQN 时在 epsilon 贪婪策略中退火 epsilon

相关内容

最新更新

热门标签：