-
如果随机变量X的概率密度函数为p(x),则X的熵定义为:
H(X)=−x∑p(x)logp(x)
熵的量纲为比特。熵可以看作是随机变量的平均不确定度的度量,在平均意义下,是为了描述了该随机变量所需的比特数。
-
将单个随机变量的熵推广到两个随机变量X和Y,其联合熵H(X,Y)定义为:
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)=−Elogp(X,Y)
-
定义一个随机变量在给定另一随机变量下的条件熵,是条件分布熵关于起条件作用的随机变量取平均之后的期望值,若(X,Y)∼p(x,y),条件熵H(X∣Y)定义为:
H(X∣Y)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(y∣x)=−Elogp(Y∣X)
-
由联合熵和条件熵的定义可以得到:
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
推论:
H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
-
相对熵是两个随机分布之间距离的度量,D(p∥q)度量当真实分布为p,而假定分布为q时的无效性,相对熵或Kullback-Leibler距离定义为:
D(p∥q)=x∈X∑p(x)logq(x)p(x)=Ep[logq(X)p(X)]
相对熵是非负的,并且当且仅当p=q时相对熵为零。相对熵在统计学、机器学习和信息论中有广泛的应用,特别是在模型选择和概率分布之间的比较中。
-
单个随机变量的熵为该随机变量的不确定度,定义涉及两个随机变量的条件熵H(X∣Y),即一个随机变量在给定另一个随机变量的条件下的熵,由另一随机变量导致的原随机变量不确定度的缩减量成为互信息。
I(H;Y)=H(X)−H(X∣Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∥p(x)p(y))=Ep(x,y)[logp(X)p(Y)p(X,Y)]
互信息I(X;Y)衡量了随机变量X和Y之间的独立程度,关于X和Y对称,且永远为非负值,当且仅当X和Y独立时,互信息为零。
-
高斯熵
以上介绍的都是离散熵,当随机变量是连续时,定义微分熵:
H(X)=−∫p(x)logp(x)dx
但这个式子不好算,数值无意义,因此大多数机器人领域工作都假设信念是高斯分布X∼N(μ,Σ),其高斯熵的封闭形式为:
H(X)=21log((2πe)d∣Σ∣)
其中:
- d是随机变量的维数
- Σ是随机变量的协方差矩阵,约等于不确定性体积
-
KL散度
KL散度是衡量两个概率分布之间差异的非对称度量,在这里可以衡量一个信念和另一个信念之间的差异,是信息损失和认知落差。离散形式为:
DKL(P∥Q)=x∑P(x)logQ(x)P(x)
连续形式为:
DKL(P∥Q)=∫P(x)logQ(x)P(x)dx
在POMDP中,信息增益=信念更新前后分布的KL散度:
IG=Ez[DKL(p(s∣z,a)∥p(s))]
对于两个高斯分布的KL散度:
如果p=N(μ0,Σ0)和q=N(μ1,Σ1),则:
DKL(p∥q)=21[ln(∣Σ0∣∣Σ1∣)−d+tr(Σ1−1Σ0)+(μ1−μ0)TΣ1−1(μ1−μ0)]
前两项为不确定性体积变化,后两项为均值变化。在主动感知中,可以只保留协方差项。
这也就意味着:
IG=H(bt)−E[H(bt+1)]IG=E[DKL(bt+1∥bt)]
在信息论中是两种等价的写法。