-
如果随机变量X的概率密度函数为p(x),则X的熵定义为:
H(X)=−x∑p(x)logp(x)
熵的量纲为比特。熵可以看作是随机变量的平均不确定度的度量,在平均意义下,是为了描述了该随机变量所需的比特数。
-
将单个随机变量的熵推广到两个随机变量X和Y,其联合熵H(X,Y)定义为:
H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)=−Elogp(X,Y)
-
定义一个随机变量在给定另一随机变量下的条件熵,是条件分布熵关于起条件作用的随机变量取平均之后的期望值,若(X,Y)∼p(x,y),条件熵H(X∣Y)定义为:
H(X∣Y)=x∈X∑p(x)H(Y∣X=x)=−x∈X∑p(x)y∈Y∑p(y∣x)logp(y∣x)=−x∈X∑y∈Y∑p(x,y)logp(y∣x)=−Elogp(Y∣X)
-
由联合熵和条件熵的定义可以得到:
H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)
推论:
H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)
-
相对熵是两个随机分布之间距离的度量,D(p∥q)度量当真实分布为p,而假定分布为q时的无效性,相对熵或Kullback-Leibler距离定义为:
D(p∥q)=x∈X∑p(x)logq(x)p(x)=Ep[logq(X)p(X)]
相对熵是非负的,并且当且仅当p=q时相对熵为零。相对熵在统计学、机器学习和信息论中有广泛的应用,特别是在模型选择和概率分布之间的比较中。
-
单个随机变量的熵为该随机变量的不确定度,定义涉及两个随机变量的条件熵H(X∣Y),即一个随机变量在给定另一个随机变量的条件下的熵,由另一随机变量导致的原随机变量不确定度的缩减量成为互信息。
I(H;Y)=H(X)−H(X∣Y)=x,y∑p(x,y)logp(x)p(y)p(x,y)=D(p(x,y)∥p(x)p(y))=Ep(x,y)[logp(X)p(Y)p(X,Y)]
互信息I(X;Y)衡量了随机变量X和Y之间的独立程度,关于X和Y对称,且永远为非负值,当且仅当X和Y独立时,互信息为零。