连续时间有限时域MDP

有什么算法可以求解有限域半马尔可夫决策过程吗？

我想找到一个具有有限作用空间、有限状态空间和截止日期的序列决策问题的最优策略。至关重要的是，不同的动作需要不同的时间，其中一个动作的持续时间是随机的。我可以根据可用的方法将时间建模为离散或连续。

我知道折扣无限域半MDP的算法，但我找不到任何关于有限域半MDPs的工作。这类问题以前研究过吗？

与几乎任何MDP一样，向后动态编程应该可以工作。您可以从0到截止日期以小步离散化您的有限范围，然后从截止日期开始递归更新值。在状态空间中，您必须跟踪当前操作、该操作花费的总时间以及已完成的操作。可能的状态数量可能相当大。

在动态程序中，您可以利用它来选择操作完成时的状态值函数。

相关内容