Hi my new friend!

信息论基础

  • Home
  • 信息论基础
Scroll down

信息论最初处理的问题是数据压缩与传输领域中的问题,其处理方法利用了熵和互信息等基本量:

  • 如果随机变量XX的概率密度函数为p(x)p(x),则XX的熵定义为:

    H(X)=xp(x)logp(x)H(X) = -\sum_x p(x) \log p(x)

    熵的量纲为比特。熵可以看作是随机变量的平均不确定度的度量,在平均意义下,是为了描述了该随机变量所需的比特数。

  • 将单个随机变量的熵推广到两个随机变量XXYY,其联合熵H(X,Y)H(X,Y)定义为:

    H(X,Y)=xXyYp(x,y)logp(x,y)=Elogp(X,Y)\begin{aligned} H(X,Y)&=-\sum_{x\in\mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y) \\ &=-E\log p(X,Y) \end{aligned}

  • 定义一个随机变量在给定另一随机变量下的条件熵,是条件分布熵关于起条件作用的随机变量取平均之后的期望值,若(X,Y)p(x,y)(X,Y)\sim p(x,y),条件熵H(XY)H(X|Y)定义为:

    H(XY)=xXp(x)H(YX=x)=xXp(x)yYp(yx)logp(yx)=xXyYp(x,y)logp(yx)=Elogp(YX)\begin{aligned} H(X|Y) &= \sum_{x\in \mathcal{X}} p(x)H(Y|X=x) \\ &= -\sum_{x\in \mathcal{X}}p(x)\sum_{y\in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x\in \mathcal{X}} \sum_{y\in \mathcal{Y}} p(x,y) \log p(y|x) \\ &= -E\log p(Y|X) \end{aligned}

  • 由联合熵和条件熵的定义可以得到:

    H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

    推论:

    H(X,YZ)=H(XZ)+H(YX,Z)H(X,Y|Z)=H(X|Z)+H(Y|X,Z)

  • 相对熵是两个随机分布之间距离的度量,D(pq)D(p\parallel q)度量当真实分布为pp,而假定分布为qq时的无效性,相对熵或Kullback-Leibler距离定义为:

    D(pq)=xXp(x)logp(x)q(x)=Ep[logp(X)q(X)]\begin{aligned} D(p\parallel q) &= \sum_{x\in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} \\ &= E_p\left[\log \frac{p(X)}{q(X)}\right] \end{aligned}

    相对熵是非负的,并且当且仅当p=qp=q时相对熵为零。相对熵在统计学、机器学习和信息论中有广泛的应用,特别是在模型选择和概率分布之间的比较中。

  • 单个随机变量的熵为该随机变量的不确定度,定义涉及两个随机变量的条件熵H(XY)H(X|Y),即一个随机变量在给定另一个随机变量的条件下的熵,由另一随机变量导致的原随机变量不确定度的缩减量成为互信息。

    I(H;Y)=H(X)H(XY)=x,yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)p(x)p(y))=Ep(x,y)[logp(X,Y)p(X)p(Y)]\begin{aligned} I(H;Y)&=H(X)-H(X|Y) \\ &=\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &=D(p(x,y)\parallel p(x)p(y)) \\ &=E_{p(x,y)}\left[\log \frac{p(X,Y)}{p(X)p(Y)}\right] \end{aligned}

    互信息I(X;Y)I(X;Y)衡量了随机变量XXYY之间的独立程度,关于XXYY对称,且永远为非负值,当且仅当XXYY独立时,互信息为零。

  • 高斯熵
    以上介绍的都是离散熵,当随机变量是连续时,定义微分熵:

    H(X)=p(x)logp(x)dxH(X)=-\int p(x) \log p(x) dx

    但这个式子不好算,数值无意义,因此大多数机器人领域工作都假设信念是高斯分布XN(μ,Σ)X\sim\mathcal{N}(\mu, \Sigma),其高斯熵的封闭形式为:

    H(X)=12log((2πe)dΣ)H(X)=\frac{1}{2} \log \left((2\pi e)^d |\Sigma|\right)

    其中:

    • d是随机变量的维数
    • Σ\Sigma是随机变量的协方差矩阵,约等于不确定性体积
  • KL散度
    KL散度是衡量两个概率分布之间差异的非对称度量,在这里可以衡量一个信念和另一个信念之间的差异,是信息损失和认知落差。离散形式为:

    DKL(PQ)=xP(x)logP(x)Q(x)D_{KL}(P\parallel Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}

    连续形式为:

    DKL(PQ)=P(x)logP(x)Q(x)dxD_{KL}(P\parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} dx

    在POMDP中,信息增益=信念更新前后分布的KL散度:

    IG=Ez[DKL(p(sz,a)p(s))]IG=\mathbb{E}_z[D_{KL}(p(s|z,a)\parallel p(s))]

    对于两个高斯分布的KL散度:
    如果p=N(μ0,Σ0)p=\mathcal{N}(\mu_0, \Sigma_0)q=N(μ1,Σ1)q=\mathcal{N}(\mu_1, \Sigma_1),则:

    DKL(pq)=12[ln(Σ1Σ0)d+tr(Σ11Σ0)+(μ1μ0)TΣ11(μ1μ0)]D_{KL}(p\parallel q) = \frac{1}{2} \left[ \ln\left(\frac{|\Sigma_1|}{|\Sigma_0|}\right) - d + \text{tr}(\Sigma_1^{-1} \Sigma_0) + (\mu_1 - \mu_0)^T \Sigma_1^{-1} (\mu_1 - \mu_0) \right]

    前两项为不确定性体积变化,后两项为均值变化。在主动感知中,可以只保留协方差项。

    这也就意味着:

    IG=H(bt)E[H(bt+1)]IG=E[DKL(bt+1bt)]IG=H(b_t)-\mathbb{E}[H(b_{t+1})] \\ IG=\mathbb{E}[D_{KL}(b_{t+1}\parallel b_t)]

    在信息论中是两种等价的写法。

我是学生,给我钱

其他文章
请输入关键词进行搜索