多智能体(非深度)强化学习?建模问题

我有N数量的代理/用户访问单个无线信道，每次只有一个代理可以访问该信道并获得奖励。

每个用户都有一个缓冲区，可以存储B数量的数据包，我假设它是无限缓冲区。

每个用户n从环境中观察时隙t中的数据包是成功还是失败(碰撞(。如果有多个用户访问该频道，他们将受到处罚。

来自该频道的反馈对所有用户都是一样的，因为我们只有一个频道。奖励为-B_n(缓冲区中数据包数的负数(。每个用户都希望最大化自己的奖励，并尝试清空缓冲区。

数据包按照泊松过程到达每个用户，每个时隙的平均数据包数为$\lambda$。

每个用户都有前10个时隙的历史记录，它将其用作DQN的输入，以输出采取行动的概率a_n：保持静音或发送。历史是(A_n，F，B_n(

每个用户都不知道其他用户的操作和缓冲区状态。

我正试图用多智能体强化学习来建模我的问题，到目前为止，我已经用DQN进行了尝试，但结果或多或少像是一个随机方案。可能是用户没有太多的上下文信息来学习其他用户的行为？或者还有其他原因吗？

我想知道如何对我的环境建模，因为状态(在RL意义上(是静态的，环境不会改变。唯一改变的是每个用户在每个时间段的历史记录。所以我不确定这是一个部分可观察的MDP，还是应该将其建模为多智能体单臂土匪问题，我不知道这个问题是否正确。

第二个问题是，我尝试过DQN，但它没有起作用，我想知道这个问题是否可以用于表格Q学习？我还没有看到有人使用过QL的多代理工作。任何见解都可能有所帮助。

您的问题可以建模为去中心化POMDP(请参阅此处的概述(。

总结这种方法，您可以考虑一个多智能体系统，其中每个智能体都对自己的策略进行建模，然后尝试通过这些单独的策略来构建联合策略。当然，复杂性随着代理、状态和操作数量的增加而增加，因此有几种主要基于启发式的方法来修剪这个联合策略树中不是"的分支；"好"；与其他人相比。使用这种方法的一个众所周知的例子正是关于在可能定义离散动作/空间的情况下路由包。

但要注意，即使是很小的系统，其复杂性也往往变得不可行！

相关内容

最新更新

热门标签：