※ Self-Information I(n)

我们要定义一个函数(或者说一个事件新的属性,称为自信息),该函数能够衡量当一件事情在发生之前事件的不确定性,如此我们首先达成以下共识:

  1. 事件需要依据它的固有属性数字化,这里我们使用事件发生的概率
  2. 当一个事件发生的概率越大,所含信息量越少,概率为1时候,信息量为0。
  3. 独立事件同时发生时候,信息量是各个独立事件信息量之和
  4. 事件发生概率的微小变动会影响自信息

注意,这里的信息量是一种信息容量,就像kg一样刻画物体的质量,但是不同的是,信息容量表示的内在含义是指数级的,如3bit相对于1bit,数字上是3倍,但是3bit可以刻画的状态数却是四倍于1bit。我们可以粗浅理解这里的信息量类似于比特数,它是一种新的量纲!

1 数学描述


Cond1

设事件 E 属于一个给定的事件集合(空间),其发生概率为:

Pe:=Pr(E)0Pe1

因此我们要找一个实函数,其性质如下:

I(x),  x[0,1]

Cond2

该函数是一个单调递减函数:

(1-1)xi,xj[0,1],  if xi<xj  then I(xj)<I(xi)

并且有一个固定点:

I(1)=0

Cond3

独立事件同时发生的概率等于各个事件发生概率之积,因此函数具有以下性质:

(1-2)I(p1×p2)=I(p1)+I(p2)

Cond4

I(x)是一个连续的函数

2 数学证明


2.1 提出命题

满足上述四个条件的函数只能是:

(2-1)I(p)=c·logb(p),  p(0,1]

其中c是一个正实数,b是一个任何大于1的整数。

2.2 证明过程

2.2.1 引理-1

先证明如下引理:对于n=1,2,3,..

(2-2)I(1n)=c·logb(1n)

证明:

当n=1时,根据Cond2,=I(1)=0=c·logb(1)=0=,等式成立。

当n>1时,依据公式1-1以及公式1-2,知道当n<m时,

1m<1nI(1n)<I(1m)I(1mn)=I(1m)+I(1n)

同时,依据公式1-2,不难推导出对于任意非负整数k,有:

(2-3)I(1nk)=k·I(1n)

对于任意正整数r,一定有非负整数k:

nk2r<nk+1

根据公式1-1和公式2-3以及r>0n>1,I(1n)>0

(2-4)I(1nk)I(12r)<I(1nk+1)k·I(1n)r·I(12)<(k+1)·I(1n)krI(12)I(1n)<k+1r

易知:

(2-5)logbnklogb2rlogbnk+1krlogb(2)logb(n)k+1r

综合公式2-4和公式2-5有:

|logb(2)logb(n)I(1/2)I(1/n)|<1r

因为b也是常量,当n固定时候,r,可以知道:

I(1n)=c·logb(n),c=I(1/2)logb(2)>0

引理-1得证。

2.2.2 引理-2

再证明如下引理:对于正有理数0<p<1,有:

I(p)=c·logb(p)

其中c>0是一个常数。

证明:因为p是一个正有理数,所以一定存在正整数r,s使得p=r/s

由公式1-2知:

I(1s)=I(1r·rs)=I(1r)+I(rs)I(rs)=I(1s)I(1r)

根据中间引理-1知:

I(p)=I(rs)=I(1s)I(1r)=c·logb(s)c·logb(r)=c·logb(p)

所以中间引理-2得证。

2.2.3 引理-3

最后证明如下引理:

I(p)=c·logb(p),p(0,1] 

易知:

I(p)=limaparationalI(a)=limbpbrationalI(b)=c·logb(p)

所以连续得证。

综合上述3个引理,原命题得证。

补充


我们通常将c设置为1,对于不同底数b,单位是不同的,b=2时,单位为bit,b=e也就是自然底数时,单位为nat

 

※ Entrophy

自信息讨论的是一整个事件空间中某一个事件的属性,这个属性只依赖于事件发生的概率。

可以这样理解:所谓自信息,香农提出的是概率性度量,香农认为,记录一个概率发生小的事件比概率发生大的事件需要更多的空间,因为一个人确定低概率事件发生所需要的不确定性代价更高。这符合直觉吗?联想一下哈夫曼编码,当我们给大概率事件赋予更少比特数时候,压缩率达到最高。

1 熵的定义

对于一个概率质量函数为PX(·)离散随机变量X,它的熵定义为:H(X)或者H(Px)

(1-1)H(X):=xXPX(x)·log2PX(x)(bits)

其中X是随机变量X取值的有限大小的字母集合,熵的含义是:当了解到字母集合中一个字母出现时候,一个人能够获得信息量的的统计均值

H(X):=E[log2PX(X)]=E(I(X))

在计算熵的时候我们规定:

0·log20=0

因为随着x0+xlog2x0

特别的,对于一个服从01分布的随机变量X,如果PX(1)=p,并且PX(0)=1pp[0,1]是一个定值,那么:

H(X)=p·log2(p)(1p)·log2(1p)

2 熵的属性

2.1 Fundamental Inequality(FI)

对于任意x>0D>1,下面的不等式:

(2-1)logD(x)logD(e)·(x1)

成立,且等号当且仅当x=1时成立

y=1x代入上式,亦得:

(2-2)logD(y)logD(e)·(11y)

对于任意y>0成立,并且等号当且仅当y=1时成立。

2.2 Nonenegativity

H(X)0 恒成立,且等号当且仅当X是确定性的时候成立。

2.3 Upper bound on entropy

如果随机变量X从一个有限字母集合X中取值,那么无论随机变量X的概率分布如何,它的熵有一个上界:

(2-3)H(X)log2|X|

其中|X|表示字母集合X的大小,等号当且仅当X服从均匀分布成立。这个上界还叫Hartley's function or entrophy

2.4 Log-sum inequlity

对于所有非负数,a1,a2,...,anb1,b2,...,bn,有不等式:

(2-4)i=1n(ailogDaibi)(i=1nai)logDi=1naii=1nbi

等式当且仅当对于所有的i=1,...,n

aibi=j=1najj=1nbj

证明可以使用著名的琴生不等式加权版(Jensen's inequality)。

凸集

一个集合是凸集(convex set),如果对任意x1,x2Cθ[0,1] 都有:

θx1+(1θ)x2C

仿射集自然是凸集的一种,类比于仿射集的相关概念,我们可以得到凸包convex hull )的定义:

convC={θ1x1++θkxkxiC,θi0,i=1,,k,θ1++θk=1}

严格凸函数

f:RnR如果定义域是凸集,有x,y,andwhenθ[0,1]有:

(2-5)f(θx+(1θ)y)θf(x)+(1θ)f(y)

成立,且当θ(0,1)xy时候,上述不等式不等号严格成立,则f称为严格凸函数。

📌琴生不等式

对于任何严格凸函数(strictly convex function)f(·),如果αi0并且i=1nαi=1,则:

(2-6)i=1nαf(ti)f(i=1nαiti)

成立,且等号当且仅当t1=t2=...tn=Const.num

3 联合熵和条件熵

回顾条件概率,这里千万记住P(X,Y|Z)的含义是P((X,Y)|Z)也就是,在Z发生的条件下,X,Y一起发生的概率。

同理,P(Y|X,Z)的含义是P(Y|(X,Z))也就是,在X,Z均发生的条件下 Y发生的概率。

总之,'|'左右是一个整体,''的运算优先级高于 '|'

3.1 二维元素事件的自信息

一对随机变量(X,Y),其联合概率质量函数为PX,Y(·,·),则对于元事件{X=x,Y=y},其自信息为:

(3-1)I(x,y):=log2PX,Y(x,y)

3.2 联合熵的定义

随机变量(X,Y)的熵定义为:

(3-2)H(X,Y):=(x,y)X×YPX,Y(x,y)·log2PX,Y(x,y)

3.3 条件熵的定义

给定两个联合分布的随机变量X,Y,考虑X对于Y的条件熵H(Y|X)定义为:

(3-3)H(Y|X)=E[log2PY|X(Y|X)]=(x,y)X×YPX,Y(x,y)·log2PY|X(y|x)=xXPX(x)(yYPY|X(y|x)·log2PY|X(y|x))=xXPX(x)·H(Y|X=x)

3.4 定理和推论

熵的链式法则

H(X,Y)=H(X)+H(Y|X)

由联合熵的定义知:H(X,Y)=H(Y,X),具有可交换性。所以:

(3-4)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)

进一步有:

(3-5)H(X)H(X|Y)=H(Y)H(Y|X)

上面等式中两边的含义就是后面会介绍的互信息(mutual information)

条件熵的链式法则

(3-6)H(X,Y|Z)=H(X|Z)+H(Y|X,Z)

通俗理解,就是熵的链式法则的推广,只不过熵的链式法则是在全局事件空间Ω下,

H(X,Y)=H(X)+H(Y|X)H(X,Y|Ω)=H(X|Ω)+H(Y|X,Ω)

而条件熵则是在局部事件空间Z中。

4 联合熵和条件熵的属性

4.1 条件不增性 Conditioning never increases entrophy

引入条件后,事件空间不确定性不可能增加,可以认为产生了信息增益:

(4-1)H(X|Y)H(X)

当且仅当X,Y独立时候取等。

4.2 独立可加性 Additivive for independent random variables

对于相互独立的随机变量X,Y,其联合熵可以表示为:

(4-2)H(X,Y)=H(X)+H(Y)

4.3 条件不等式 Conditional entrophy is lower additive

(4-3)H(X1,X2|Y1,Y2)H(X1|Y1)+H(X2|Y2)

※ Mutual Information

1 互信息的定义

通俗理解:对于两个随机变量XY,当观察到某一个随机变量时候,另一个随机变量不确定性减少的量。很显然,由定义容易推断其有对称性。事实上,它就隐藏在上一章熵的链式法则中:

(1-1)I(X;Y):=H(X)H(X|Y)=H(Y)H(Y|X)=I(Y;X)

2 互信息的属性

2.1 互信息的等价表达式

(2-1)I(X;Y)=xXyYPX,Y(x,y)·log2PX,Y(x,y)PX(x)PY(y)=I(Y;X)=H(Y)H(Y|X)=H(X)+H(Y)H(X,Y)

上述三个等式都可以根据熵的定义容易推出。

2.2 互信息不大于单随机变量的熵

(2-2)I(X;Y)H(X)

等号当且仅当对于一些X=f(Y)情况成立。

2.3 互信息非负性

(2-3)I(X;Y)0,asH(X|Y)H(X)

等号当且仅当XY相互独立。

2.4 互信息的上界

(2-4)I(X;Y)min{log2|X|,log2|Y|}

这可以根据互信息的定义式以及熵的上界不等式推出。

熵,条件熵,联合熵,之间的Venn图关系如下:

image-20231120102233367

3 条件互信息

注意:I(·)中,关系运算符的优先级从高到低是 ,;|

3.1 定义

在获取了知识Z情况下,随机变量XY之间的共享不确定性。

(3-1)I(X;Y|Z)=H(X|Z)H(X|Y,Z)

3.2 联合互信息和互信息的链式法则

定义随机变量X和联合随机变量(Y,Z)联合互信息:

(3-2)I(X;Y,Z):=H(X)H(X|Y,Z)

我们有链式法则如下:

(3-3)I(X;Y,Z)=I(X;Y)+I(X;Z|Y)=I(X;Z)+I(X;Y|Z)

使用Venn图理解就是:

image-20231120145146190

其中上图图紫色实心区域为:I(X;Z),蓝色实心区域为:I(X;Y|Z)=H(X|Z)H(X|Y,Z)。而链式法则第二个等号右侧的含义就是 紫色实心区域 + 蓝色实心区域 得到随机变量X与联合分布(Y,Z)之间的互信息:I(X;Y,Z)

参考链接🔗

1. No.2 信息熵的广义可加性:条件熵、互信息的几何含义 - 知乎 (zhihu.com)

2. No.3 梳理汇总:信息熵、条件熵和互信息的性质及其推导 - 知乎 (zhihu.com)

3. 琴生不等式(Jensen's inequality)的证明 - 知乎 (zhihu.com)

4. Convex function - 知乎 (zhihu.com)