※ Self-Information $I(n)$ 1 数学描述Cond1Cond2Cond3 Cond42 数学证明2.1 提出命题2.2 证明过程2.2.1 引理-12.2.2 引理-22.2.3 引理-3补充※ Entrophy1 熵的定义2 熵的属性2.1 Fundamental Inequality(FI)2.2 Nonenegativity2.3 Upper bound on entropy2.4 Log-sum inequlity 凸集严格凸函数📌琴生不等式3 联合熵和条件熵3.1 二维元素事件的自信息3.2 联合熵的定义3.3 条件熵的定义3.4 定理和推论熵的链式法则条件熵的链式法则4 联合熵和条件熵的属性4.1 条件不增性 Conditioning never increases entrophy4.2 独立可加性 Additivive for independent random variables4.3 条件不等式 Conditional entrophy is lower additive※ Mutual Information1 互信息的定义2 互信息的属性2.1 互信息的等价表达式2.2 互信息不大于单随机变量的熵2.3 互信息非负性2.4 互信息的上界3 条件互信息3.1 定义3.2 联合互信息和互信息的链式法则参考链接🔗

$I(n)$

我们要定义一个函数(或者说一个事件新的属性，称为自信息)，该函数能够衡量当一件事情在发生之前事件的不确定性，如此我们首先达成以下共识：

事件需要依据它的固有属性数字化，这里我们使用事件发生的概率
当一个事件发生的概率越大，所含信息量越少，概率为1时候，信息量为0。
独立事件同时发生时候，信息量是各个独立事件信息量之和
事件发生概率的微小变动会影响自信息

注意，这里的信息量是一种信息容量，就像kg一样刻画物体的质量，但是不同的是，信息容量表示的内在含义是指数级的，如3bit相对于1bit，数字上是3倍，但是3bit可以刻画的状态数却是四倍于1bit。我们可以粗浅理解这里的信息量类似于比特数，它是一种新的量纲!

1 数学描述

Cond1

$E$ 属于一个给定的事件集合(空间)，其发生概率为:

\begin{matrix} P_{e} := P r (E) \\ 0 \leq P_{e} \leq 1 \end{matrix}

因此我们要找一个实函数，其性质如下:

I (x), x \in [0, 1]

Cond2

该函数是一个单调递减函数：

\begin{matrix} (1-1) & \forall x_{i}, x_{j} \in [0, 1], i f x_{i} < x_{j} t h e n I (x_{j}) < I (x_{i}) \end{matrix}

并且有一个固定点：

I (1) = 0

Cond3

独立事件同时发生的概率等于各个事件发生概率之积，因此函数具有以下性质：

\begin{matrix} (1-2) & I (p_{1} \times p_{2}) = I (p_{1}) + I (p_{2}) \end{matrix}

Cond4

$I(x)$ 是一个连续的函数

2 数学证明

2.1 提出命题

满足上述四个条件的函数只能是：

\begin{matrix} (2-1) & I (p) = - c \cdot l o g_{b} (p), p \in (0, 1] \end{matrix}

其中c是一个正实数，b是一个任何大于1的整数。

2.2 证明过程

2.2.1 引理-1

$n=1,2,3,..$

\begin{matrix} (2-2) & I (\frac{1}{n}) = - c \cdot l o g_{b} (\frac{1}{n}) \end{matrix}

证明：

$左=I(1)=0$ $右=-c · log_b(1)=0=左$ ，等式成立。

当n>1时，依据公式1-1以及公式1-2，知道当n<m时，

\begin{matrix} \frac{1}{m} < \frac{1}{n} ⟹ I (\frac{1}{n}) < I (\frac{1}{m}) \\ I (\frac{1}{m n}) = I (\frac{1}{m}) + I (\frac{1}{n}) \end{matrix}

同时，依据公式1-2，不难推导出对于任意非负整数k，有：

\begin{matrix} (2-3) & I (\frac{1}{n^{k}}) = k \cdot I (\frac{1}{n}) \end{matrix}

对于任意正整数r，一定有非负整数k：

n^{k} \leq 2^{r} < n^{k + 1}

$r>0$ $n>1,I(\frac{1}{n})>0$ ：

\begin{matrix} (2-4) & \begin{matrix} I (\frac{1}{n^{k}}) \leq I (\frac{1}{2^{r}}) < I (\frac{1}{n^{k + 1}}) ⟹ k \cdot I (\frac{1}{n}) \leq r \cdot I (\frac{1}{2}) < (k + 1) \cdot I (\frac{1}{n}) \\ ⟹ \frac{k}{r} \leq \frac{I (\frac{1}{2})}{I (\frac{1}{n})} < \frac{k + 1}{r} \end{matrix} \end{matrix}

易知：

\begin{matrix} (2-5) & l o g_{b} n^{k} \leq l o g_{b} 2^{r} \leq l o g_{b} n^{k + 1} ⟺ \frac{k}{r} \leq \frac{l o g_{b} (2)}{l o g_{b} (n)} \leq \frac{k + 1}{r} \end{matrix}

综合公式2-4和公式2-5有：

| \frac{l o g_{b} (2)}{l o g_{b} (n)} - \frac{I (1 / 2)}{I (1 / n)} | < \frac{1}{r}

$r \to \infty$ ，可以知道：

I (\frac{1}{n}) = - c \cdot l o g_{b} (n), c = \frac{I (1 / 2)}{l o g_{b} (2)} > 0

引理-1得证。

2.2.2 引理-2

$0<p<1$ ，有：

I (p) = - c \cdot l o g_{b} (p)

$c>0$ 是一个常数。

证明： $p=r/s$ 。

由公式1-2知：

\begin{matrix} I (\frac{1}{s}) = I (\frac{1}{r} \cdot \frac{r}{s}) = I (\frac{1}{r}) + I (\frac{r}{s}) \\ ⟹ I (\frac{r}{s}) = I (\frac{1}{s}) - I (\frac{1}{r}) \end{matrix}

根据中间引理-1知：

I (p) = I (\frac{r}{s}) = I (\frac{1}{s}) - I (\frac{1}{r}) = c \cdot l o g_{b} (s) - c \cdot l o g_{b} (r) = - c \cdot l o g_{b} (p)

所以中间引理-2得证。

2.2.3 引理-3

最后证明如下引理：

I (p) = - c \cdot l o g_{b} (p), p \in (0, 1] 函 数 连 续

易知：

I (p) = lim_{a ↓ p a r a t i o n a l} I (a) = lim_{b ↑ p b r a t i o n a l} I (b) = - c \cdot l o g_{b} (p)

所以连续得证。

综合上述3个引理，原命题得证。

补充

我们通常将c设置为1，对于不同底数b，单位是不同的，b=2时，单位为bit，b=e也就是自然底数时，单位为nat

※ Entrophy

自信息讨论的是一整个事件空间中某一个事件的属性，这个属性只依赖于事件发生的概率。

可以这样理解：所谓自信息，香农提出的是概率性度量，香农认为，记录一个概率发生小的事件比概率发生大的事件需要更多的空间，因为一个人确定低概率事件发生所需要的不确定性代价更高。这符合直觉吗？联想一下哈夫曼编码，当我们给大概率事件赋予更少比特数时候，压缩率达到最高。

1 熵的定义

$P_X(·)$ $X$ $H(X)$ $H(P_x)$ ：

\begin{matrix} (1-1) & H (X) := - \sum_{x \in X} P_{X} (x) \cdot l o g_{2} P_{X} (x) (b i t s) \end{matrix}

$\mathcal{X}$ $X$ 取值的有限大小的字母集合，熵的含义是：当了解到字母集合中一个字母出现时候，一个人能够获得信息量的的统计均值。

H (X) := E [- l o g_{2} P_{X} (X)] = E (I (X))

在计算熵的时候我们规定：

0 \cdot l o g_{2} 0 = 0

$x\rightarrow0^+$ $xlog_2x\rightarrow0$

$0-1$ $X$ $P_X(1)=p$ $P_X(0)=1-p，p\in [0,1]$ 是一个定值，那么：

H (X) = - p \cdot l o g_{2} (p) - (1 - p) \cdot l o g_{2} (1 - p)

2 熵的属性

2.1 Fundamental Inequality(FI)

$x>0，D>1$ ，下面的不等式：

\begin{matrix} (2-1) & l o g_{D} (x) \leq l o g_{D} (e) \cdot (x - 1) \end{matrix}

$x=1$ 时成立

$y=\frac{1}{x}$ 代入上式，亦得：

\begin{matrix} (2-2) & l o g_{D} (y) \geq l o g_{D} (e) \cdot (1 - \frac{1}{y}) \end{matrix}

$y>0$ $y=1$ 时成立。

2.2 Nonenegativity

$H(X) \ge 0$ 恒成立，且等号当且仅当X是确定性的时候成立。

2.3 Upper bound on entropy

$X$ $\mathcal{X}$ $X$ 的概率分布如何，它的熵有一个上界：

\begin{matrix} (2-3) & H (X) \leq l o g_{2} | X | \end{matrix}

$|\mathcal{X}|$ $\mathcal{X}$ $X$ 服从均匀分布成立。这个上界还叫Hartley's function or entrophy

2.4 Log-sum inequlity

$a_1, a_2, ..., a_n$ $b_1, b_2, ..., b_n$ ，有不等式：

\begin{matrix} (2-4) & \sum_{i = 1}^{n} (a_{i} l o g_{D} \frac{a_{i}}{b_{i}}) \geq (\sum_{i = 1}^{n} a_{i}) l o g_{D} \frac{\sum_{i = 1}^{n} a_{i}}{\sum_{i = 1}^{n} b_{i}} \end{matrix}

$i=1, ..., n$ ，

\frac{a_{i}}{b_{i}} = \frac{\sum_{j = 1}^{n} a_{j}}{\sum_{j = 1}^{n} b_{j}}

证明可以使用著名的琴生不等式加权版(Jensen's inequality)。

凸集

$x_1,x_2\in C$ $\theta \in [0, 1]$ 都有：

θ x_{1} + (1 - θ) x_{2} \in C

仿射集自然是凸集的一种，类比于仿射集的相关概念，我们可以得到凸包（convex hull ）的定义：

\begin{matrix} conv C = {θ_{1} x_{1} + \dots + θ_{k} x_{k} ∣ x_{i} \in C, θ_{i} \geq 0, i = 1, \dots, k, θ_{1} + \dots + θ_{k} = 1} \end{matrix}

严格凸函数

$f:R^n \rightarrow R$ $\forall x,y, and \; when \; \theta \in [0,1]$ 有：

\begin{matrix} (2-5) & f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y) \end{matrix}

$\theta \in (0,1)$ $x \ne y$ $f$ 称为严格凸函数。

📌琴生不等式

$f(·)$ $\alpha_i\ge0$ $\sum_{i=1}^{n}{\alpha_i}=1$ ，则：

\begin{matrix} (2-6) & \sum_{i = 1}^{n} α f (t_{i}) \geq f (\sum_{i = 1}^{n} α_{i} t_{i}) \end{matrix}

$t_1=t_2=...t_n=Const.num$

3 联合熵和条件熵

回顾记住 $P(X,Y|Z)$ $P((X,Y)|Z)$ $Z$ $X,Y$ 一起发生的概率。
$P(Y|X,Z)$ $P(Y|(X,Z))$ $X,Z$ $Y$ 发生的概率。
总之， $\; | \;$ '左右是一个整体， $，$ '的运算优先级 $\; | \;$ '

3.1 二维元素事件的自信息

$(X,Y)$ $P_{X,Y}(·,·)$ $\left\{ X=x,Y=y \right\}$ ，其自信息为：

\begin{matrix} (3-1) & I (x, y) := - l o g_{2} P_{X, Y} (x, y) \end{matrix}

3.2 联合熵的定义

$(X,Y)$ 的熵定义为：

\begin{matrix} (3-2) & H (X, Y) := - \sum_{(x, y) \in X \times Y} P_{X, Y} (x, y) \cdot l o g_{2} P_{X, Y} (x, y) \end{matrix}

3.3 条件熵的定义

$X,Y$ $X$ $Y$ $H(Y|X)$ 定义为：

\begin{matrix} (3-3) & \begin{matrix} H (Y | X) = E [- l o g_{2} P_{Y | X} (Y | X)] \\ = - \sum_{(x, y) \in X \times Y} P_{X, Y} (x, y) \cdot l o g_{2} P_{Y | X} (y | x) \\ = \sum_{x \in X} P_{X} (x) (- \sum_{y \in Y} P_{Y | X} (y | x) \cdot l o g_{2} P_{Y | X} (y | x)) \\ = \sum_{x \in X} P_{X} (x) \cdot H (Y | X = x) \end{matrix} \end{matrix}

3.4 定理和推论

熵的链式法则

H (X, Y) = H (X) + H (Y | X)

$H(X,Y)=H(Y,X)$ ，具有可交换性。所以：

\begin{matrix} (3-4) & H (X, Y) = H (X) + H (Y | X) = H (Y) + H (X | Y) = H (Y, X) \end{matrix}

进一步有：

\begin{matrix} (3-5) & H (X) - H (X | Y) = H (Y) - H (Y | X) \end{matrix}

上面等式中两边的含义就是后面会介绍的互信息(mutual information)！

条件熵的链式法则

\begin{matrix} (3-6) & H (X, Y | Z) = H (X | Z) + H (Y | X, Z) \end{matrix}

$\Omega$ 下，

H (X, Y) = H (X) + H (Y | X) ⟺ H (X, Y | Ω) = H (X | Ω) + H (Y | X, Ω)

$Z$ 中。

4 联合熵和条件熵的属性

4.1 条件不增性 Conditioning never increases entrophy

引入条件后，事件空间不确定性不可能增加，可以认为产生了信息增益：

\begin{matrix} (4-1) & H (X | Y) \leq H (X) \end{matrix}

$X,Y$ 独立时候取等。

4.2 独立可加性 Additivive for independent random variables

$X,Y$ ，其联合熵可以表示为：

\begin{matrix} (4-2) & H (X, Y) = H (X) + H (Y) \end{matrix}

4.3 条件不等式 Conditional entrophy is lower additive

\begin{matrix} (4-3) & H (X_{1}, X_{2} | Y_{1}, Y_{2}) \leq H (X_{1} | Y_{1}) + H (X_{2} | Y_{2}) \end{matrix}

※ Mutual Information

1 互信息的定义

$X$ $Y$ ，当观察到某一个随机变量时候，另一个随机变量不确定性减少的量。很显然，由定义容易推断其有对称性。事实上，它就隐藏在上一章熵的链式法则中：

\begin{matrix} (1-1) & I (X; Y) := H (X) - H (X | Y) = H (Y) - H (Y | X) = I (Y; X) \end{matrix}

2 互信息的属性

2.1 互信息的等价表达式

\begin{matrix} (2-1) & \begin{matrix} I (X; Y) = \sum_{x \in X} \sum_{y \in Y} P_{X, Y} (x, y) \cdot l o g_{2} \frac{P_{X, Y} (x, y)}{P_{X} (x) P_{Y} (y)} \\ = I (Y; X) = H (Y) - H (Y | X) \\ = H (X) + H (Y) - H (X, Y) \end{matrix} \end{matrix}

上述三个等式都可以根据熵的定义容易推出。

2.2 互信息不大于单随机变量的熵

\begin{matrix} (2-2) & I (X; Y) \leq H (X) \end{matrix}

$X=f(Y)$ 情况成立。

2.3 互信息非负性

\begin{matrix} (2-3) & I (X; Y) \geq 0, a s H (X | Y) \leq H (X) \end{matrix}

$X和Y$ 相互独立。

2.4 互信息的上界

\begin{matrix} (2-4) & I (X; Y) \leq m i n {l o g_{2} | X |, l o g_{2} | Y |} \end{matrix}

这可以根据互信息的定义式以及熵的上界不等式推出。

熵，条件熵，联合熵，之间的Venn图关系如下：

3 条件互信息

注意： $I(·)$ $, \;\;\;\; ; \;\;\;\; |$

3.1 定义

$Z$ $X和Y$ 之间的共享不确定性。

\begin{matrix} (3-1) & I (X; Y | Z) = H (X | Z) - H (X | Y, Z) \end{matrix}

3.2 联合互信息和互信息的链式法则

$X$ $(Y,Z)$ 联合互信息：

\begin{matrix} (3-2) & I (X; Y, Z) := H (X) - H (X | Y, Z) \end{matrix}

我们有链式法则如下：

\begin{matrix} (3-3) & I (X; Y, Z) = I (X; Y) + I (X; Z | Y) = I (X; Z) + I (X; Y | Z) \end{matrix}

使用Venn图理解就是：

$I(X;\; Z)$ $I(X;\; Y|Z)=H(X|Z)-H(X|Y,Z)$ 。而链式法则第二个等号右侧的含义就是紫色实心区域 + 蓝色 $X$ $(Y,Z)$ $I(X;\; Y,Z)$

参考链接🔗

1. No.2 信息熵的广义可加性：条件熵、互信息的几何含义 - 知乎 (zhihu.com)

2. No.3 梳理汇总：信息熵、条件熵和互信息的性质及其推导 - 知乎 (zhihu.com)

3. 琴生不等式（Jensen's inequality)的证明 - 知乎 (zhihu.com)

4. Convex function - 知乎 (zhihu.com)

※ Self-Information I(n)I(n)