Hi my new friend!

信息论基础1

  • Home
  • 信息论基础
Scroll down

信息论最初处理的问题是数据压缩与传输领域中的问题,其处理方法利用了熵和互信息等基本量:

  • 如果随机变量XX的概率密度函数为p(x)p(x),则XX的熵定义为:

    H(X)=xp(x)logp(x)H(X) = -\sum_x p(x) \log p(x)

    熵的量纲为比特。熵可以看作是随机变量的平均不确定度的度量,在平均意义下,是为了描述了该随机变量所需的比特数。

  • 将单个随机变量的熵推广到两个随机变量XXYY,其联合熵H(X,Y)H(X,Y)定义为:

    H(X,Y)=xXyYp(x,y)logp(x,y)=Elogp(X,Y)\begin{aligned} H(X,Y)&=-\sum_{x\in\mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log p(x,y) \\ &=-E\log p(X,Y) \end{aligned}

  • 定义一个随机变量在给定另一随机变量下的条件熵,是条件分布熵关于起条件作用的随机变量取平均之后的期望值,若(X,Y)p(x,y)(X,Y)\sim p(x,y),条件熵H(XY)H(X|Y)定义为:

    H(XY)=xXp(x)H(YX=x)=xXp(x)yYp(yx)logp(yx)=xXyYp(x,y)logp(yx)=Elogp(YX)\begin{aligned} H(X|Y) &= \sum_{x\in \mathcal{X}} p(x)H(Y|X=x) \\ &= -\sum_{x\in \mathcal{X}}p(x)\sum_{y\in \mathcal{Y}}p(y|x)\log p(y|x) \\ &= -\sum_{x\in \mathcal{X}} \sum_{y\in \mathcal{Y}} p(x,y) \log p(y|x) \\ &= -E\log p(Y|X) \end{aligned}

  • 由联合熵和条件熵的定义可以得到:

    H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)

    推论:

    H(X,YZ)=H(XZ)+H(YX,Z)H(X,Y|Z)=H(X|Z)+H(Y|X,Z)

  • 相对熵是两个随机分布之间距离的度量,D(pq)D(p\parallel q)度量当真实分布为pp,而假定分布为qq时的无效性,相对熵或Kullback-Leibler距离定义为:

    D(pq)=xXp(x)logp(x)q(x)=Ep[logp(X)q(X)]\begin{aligned} D(p\parallel q) &= \sum_{x\in \mathcal{X}} p(x) \log \frac{p(x)}{q(x)} \\ &= E_p\left[\log \frac{p(X)}{q(X)}\right] \end{aligned}

    相对熵是非负的,并且当且仅当p=qp=q时相对熵为零。相对熵在统计学、机器学习和信息论中有广泛的应用,特别是在模型选择和概率分布之间的比较中。

  • 单个随机变量的熵为该随机变量的不确定度,定义涉及两个随机变量的条件熵H(XY)H(X|Y),即一个随机变量在给定另一个随机变量的条件下的熵,由另一随机变量导致的原随机变量不确定度的缩减量成为互信息。

    I(H;Y)=H(X)H(XY)=x,yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)p(x)p(y))=Ep(x,y)[logp(X,Y)p(X)p(Y)]\begin{aligned} I(H;Y)&=H(X)-H(X|Y) \\ &=\sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\ &=D(p(x,y)\parallel p(x)p(y)) \\ &=E_{p(x,y)}\left[\log \frac{p(X,Y)}{p(X)p(Y)}\right] \end{aligned}

    互信息I(X;Y)I(X;Y)衡量了随机变量XXYY之间的独立程度,关于XXYY对称,且永远为非负值,当且仅当XXYY独立时,互信息为零。

我是学生,给我钱

其他文章
请输入关键词进行搜索