连续时间有限时域MDP



有什么算法可以求解有限域半马尔可夫决策过程吗?

我想找到一个具有有限作用空间、有限状态空间和截止日期的序列决策问题的最优策略。至关重要的是,不同的动作需要不同的时间,其中一个动作的持续时间是随机的。我可以根据可用的方法将时间建模为离散或连续。

我知道折扣无限域半MDP的算法,但我找不到任何关于有限域半MDPs的工作。这类问题以前研究过吗?

与几乎任何MDP一样,向后动态编程应该可以工作。您可以从0到截止日期以小步离散化您的有限范围,然后从截止日期开始递归更新值。在状态空间中,您必须跟踪当前操作、该操作花费的总时间以及已完成的操作。可能的状态数量可能相当大。

在动态程序中,您可以利用它来选择操作完成时的状态值函数。

最新更新