Hi my new friend!

信息论基础

Home
信息论基础

Scroll down

Yunji Feng's 博客

邮箱:

work@fengyunji.site
微信:

F___Y___J

02/06

10:57

Feng Yunji

信息论最初处理的问题是数据压缩与传输领域中的问题，其处理方法利用了熵和互信息等基本量：

如果随机变量 $X$ 的概率密度函数为 $p(x)$ ，则 $X$ 的熵定义为：
$H(X) = -\sum_x p(x) \log p(x)$
熵的量纲为比特。熵可以看作是随机变量的平均不确定度的度量，在平均意义下，是为了描述了该随机变量所需的比特数。
将单个随机变量的熵推广到两个随机变量 $X$ 和 $Y$ ，其联合熵 $H(X,Y)$ 定义为：
$\begin{aligned} H(X,Y)&=-\sum_{x\in\mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y) \\ &=-E\log p(X,Y) \end{aligned}$
定义一个随机变量在给定另一随机变量下的条件熵，是条件分布熵关于起条件作用的随机变量取平均之后的期望值，若 $(X,Y)\sim p(x,y)$ ，条件熵 $H(X|Y)$ 定义为：
$\begin{aligned} H(X|Y) &= \sum_{x\in \mathcal{X}} p(x)H(Y|X=x) \\ &= -\sum_{x\in \mathcal{X}}p(x)\sum_{y\in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x\in \mathcal{X}} \sum_{y\in \mathcal{Y}} p(x,y) \log p(y|x) \\ &= -E\log p(Y|X) \end{aligned}$
由联合熵和条件熵的定义可以得到：
$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$
推论：
$H(X,Y|Z)=H(X|Z)+H(Y|X,Z)$
相对熵是两个随机分布之间距离的度量， $D(p\parallel q)$ 度量当真实分布为 $p$ ，而假定分布为 $q$ 时的无效性，相对熵或Kullback-Leibler距离定义为：
$\begin{aligned} D(p\parallel q) &= \sum_{x\in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} \\ &= E_p\left[\log \frac{p(X)}{q(X)}\right] \end{aligned}$
相对熵是非负的，并且当且仅当 $p=q$ 时相对熵为零。相对熵在统计学、机器学习和信息论中有广泛的应用，特别是在模型选择和概率分布之间的比较中。
单个随机变量的熵为该随机变量的不确定度，定义涉及两个随机变量的条件熵 $H(X|Y)$ ，即一个随机变量在给定另一个随机变量的条件下的熵，由另一随机变量导致的原随机变量不确定度的缩减量成为互信息。
$\begin{aligned} I(H;Y)&=H(X)-H(X|Y) \\ &=\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &=D(p(x,y)\parallel p(x)p(y)) \\ &=E_{p(x,y)}\left[\log \frac{p(X,Y)}{p(X)p(Y)}\right] \end{aligned}$
互信息 $I(X;Y)$ 衡量了随机变量 $X$ 和 $Y$ 之间的独立程度，关于 $X$ 和 $Y$ 对称，且永远为非负值，当且仅当 $X$ 和 $Y$ 独立时，互信息为零。
高斯熵
以上介绍的都是离散熵，当随机变量是连续时，定义微分熵：

$H(X)=-\int p(x) \log p(x) dx$

但这个式子不好算，数值无意义，因此大多数机器人领域工作都假设信念是高斯分布 $X\sim\mathcal{N}(\mu, \Sigma)$ ，其高斯熵的封闭形式为：

$H(X)=\frac{1}{2} \log \left((2\pi e)^d |\Sigma|\right)$

其中：
- d是随机变量的维数
- $\Sigma$ 是随机变量的协方差矩阵，约等于不确定性体积
KL散度
KL散度是衡量两个概率分布之间差异的非对称度量，在这里可以衡量一个信念和另一个信念之间的差异，是信息损失和认知落差。离散形式为：
$D_{KL}(P\parallel Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}$
连续形式为：
$D_{KL}(P\parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx$
在POMDP中，信息增益=信念更新前后分布的KL散度：
$IG=\mathbb{E}_z[D_{KL}(p(s|z,a)\parallel p(s))]$
对于两个高斯分布的KL散度：
如果 $p=\mathcal{N}(\mu_0, \Sigma_0)$ 和 $q=\mathcal{N}(\mu_1, \Sigma_1)$ ，则：
$D_{KL}(p\parallel q) = \frac{1}{2} \left[ \ln\left(\frac{|\Sigma_1|}{|\Sigma_0|}\right) - d + \text{tr}(\Sigma_1^{-1} \Sigma_0) + (\mu_1 - \mu_0)^T \Sigma_1^{-1} (\mu_1 - \mu_0) \right]$
前两项为不确定性体积变化，后两项为均值变化。在主动感知中，可以只保留协方差项。

这也就意味着：
$IG=H(b_t)-\mathbb{E}[H(b_{t+1})] \\ IG=\mathbb{E}[D_{KL}(b_{t+1}\parallel b_t)]$
在信息论中是两种等价的写法。

我是学生，给我钱

其他文章

github存docker镜像

26/02/06
15:08
150
1

POMDP中的信念空间

26/02/03
21:29
2.9k
15