多智能体(非深度)强化学习?建模问题



我有N数量的代理/用户访问单个无线信道,每次只有一个代理可以访问该信道并获得奖励。

每个用户都有一个缓冲区,可以存储B数量的数据包,我假设它是无限缓冲区。

每个用户n从环境中观察时隙t中的数据包是成功还是失败(碰撞(。如果有多个用户访问该频道,他们将受到处罚。

来自该频道的反馈对所有用户都是一样的,因为我们只有一个频道。奖励为-B_n(缓冲区中数据包数的负数(。每个用户都希望最大化自己的奖励,并尝试清空缓冲区。

数据包按照泊松过程到达每个用户,每个时隙的平均数据包数为$\lambda$。

每个用户都有前10个时隙的历史记录,它将其用作DQN的输入,以输出采取行动的概率a_n:保持静音或发送。历史是(A_n,F,B_n(

每个用户都不知道其他用户的操作和缓冲区状态。

我正试图用多智能体强化学习来建模我的问题,到目前为止,我已经用DQN进行了尝试,但结果或多或少像是一个随机方案。可能是用户没有太多的上下文信息来学习其他用户的行为?或者还有其他原因吗?

我想知道如何对我的环境建模,因为状态(在RL意义上(是静态的,环境不会改变。唯一改变的是每个用户在每个时间段的历史记录。所以我不确定这是一个部分可观察的MDP,还是应该将其建模为多智能体单臂土匪问题,我不知道这个问题是否正确。

第二个问题是,我尝试过DQN,但它没有起作用,我想知道这个问题是否可以用于表格Q学习?我还没有看到有人使用过QL的多代理工作。任何见解都可能有所帮助。

您的问题可以建模为去中心化POMDP(请参阅此处的概述(。

总结这种方法,您可以考虑一个多智能体系统,其中每个智能体都对自己的策略进行建模,然后尝试通过这些单独的策略来构建联合策略。当然,复杂性随着代理、状态和操作数量的增加而增加,因此有几种主要基于启发式的方法来修剪这个联合策略树中不是"的分支;"好";与其他人相比。使用这种方法的一个众所周知的例子正是关于在可能定义离散动作/空间的情况下路由包。

但要注意,即使是很小的系统,其复杂性也往往变得不可行!

最新更新