POMDP中的信念空间

POMDP（Partially Observable Markov Decision Process，部分可观测马尔可夫决策过程）可以表示为：
$$\mathcal{M}=(\mathcal{S,A,O,T,Z})$$

相比于MDP，POMDP引入了对环境状态的不完全观测。在POMDP中，智能体无法直接观察到环境的真实状态，而是通过观测获得部分信息。因此，智能体需要维护一个信念状态（belief state），即对环境状态的概率分布，以便在不确定性下进行决策。观测$\mathcal{Z}$是所有观测量$z$构成的集合，观测函数$\mathcal{O}$得到观测$z$的概率分布：
$$\mathcal{O}(z|s’,a)=P(z|s’,a)$$

MDP问题的求解

MDP问题的求解目标是找到最优策略对应的状态值函数和动作值函数。

策略的定义为：
$$\pi(a|s)$$
代表策略在状态$s$下选择动作$a$的概率。对应的状态值函数和动作值函数分别为：
$$V^{\pi}(s)=E_{\pi}[G_t|s]$$
$$Q^{\pi}(s,a)=E_{\pi}[G_t|s,a]$$
其中，$E$代表期望，$G_t$表示从时间步$t$开始的累积折扣奖励，$\gamma$为折扣因子：
$$G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k+1}$$
不同的策略会导致不同的状态值函数和动作值函数。最优策略$\pi^*$对应的最优状态值函数和动作值函数分别为：
$$V^*(s)=\max_{\pi} [R(s,a)+\gamma\sum_{s’}Pr(s’|s,a)V^*(s’)]$$
$$Q^*(s,a)=R(s,a)+\gamma\sum_{s’}Pr(s’|s,a)\max_{a’}Q^*(s’,a’)$$
贝尔曼方程为求解最优策略提供了递归关系。

POMDP中的信念空间

Yunji Feng's 博客

MDP问题的求解

其他文章

MASt3R-SLAM