Hi my new friend!

POMDP中的信念空间

  • Home
  • POMDP中的信念空间
Scroll down

POMDP(Partially Observable Markov Decision Process,部分可观测马尔可夫决策过程)可以表示为:
$$\mathcal{M}=(\mathcal{S,A,O,T,Z})$$

相比于MDP,POMDP引入了对环境状态的不完全观测。在POMDP中,智能体无法直接观察到环境的真实状态,而是通过观测获得部分信息。因此,智能体需要维护一个信念状态(belief state),即对环境状态的概率分布,以便在不确定性下进行决策。观测$\mathcal{Z}$是所有观测量$z$构成的集合,观测函数$\mathcal{O}$得到观测$z$的概率分布:
$$\mathcal{O}(z|s’,a)=P(z|s’,a)$$

MDP问题的求解

MDP问题的求解目标是找到最优策略对应的状态值函数和动作值函数。

策略的定义为:
$$\pi(a|s)$$
代表策略在状态$s$下选择动作$a$的概率。对应的状态值函数和动作值函数分别为:
$$V^{\pi}(s)=E_{\pi}[G_t|s]$$
$$Q^{\pi}(s,a)=E_{\pi}[G_t|s,a]$$
其中,$E$代表期望,$G_t$表示从时间步$t$开始的累积折扣奖励,$\gamma$为折扣因子:
$$G_t=\sum_{k=0}^{\infty}\gamma^k r_{t+k+1}$$
不同的策略会导致不同的状态值函数和动作值函数。最优策略$\pi^*$对应的最优状态值函数和动作值函数分别为:
$$V^*(s)=\max_{\pi} [R(s,a)+\gamma\sum_{s’}Pr(s’|s,a)V^*(s’)]$$
$$Q^*(s,a)=R(s,a)+\gamma\sum_{s’}Pr(s’|s,a)\max_{a’}Q^*(s’,a’)$$
贝尔曼方程为求解最优策略提供了递归关系。

我是学生,给我钱

其他文章
MASt3R-SLAM
  • 25/11/28
  • 16:12
  • 1.3k
  • 7
目录导航 置顶
  1. 1. MDP问题的求解
请输入关键词进行搜索