信息熵




信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性

20 世纪 40 年代,香农(C.E.Shannon)借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为 “信息熵”,并给出了计算信息熵的数学表达式。信息熵的提出解决了对信息的量化度量问题


信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。

信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系



理论提出


信息论之父 C. E. Shannon 在 1948 年发表的论文 “通信的数学理论( A Mathematical Theory of Communication )” 中指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关

Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为 “信息熵”,并给出了计算信息熵的数学表达式。


基本内容


通常, 一个信源发送出什么符号是不确定的, 衡量它可以根据其出现的概率来度量. 概率大, 出现机会多, 不确定性小; 反之不确定性就大.


  • 不确定性函数 f 是概率 P 的减函数
  • 两个独立符号所产生的不确定性应等于各自不确定性之和,即 f(P1, P2) = f(P1) + f(P2),这称为可加性

同时满足这两个条件的函数 f 是对数函数,即

f(P) = log (1/p) = -log (p)


在信源中, 考虑的不是某一单个符号发生的不确定性, 而是要考虑这个信源所有可能发生情况的平均不确定性.

若信源符号有 n 种取值:U1 … Ui … Un,对应概率为:P… Pi … Pn,且各种符号的出现彼此独立。这时,信源的平均不确定性应当为单个符号不确定性 -logPi 的统计平均值(E),可称为信息熵,即

式中对数一般取 2 为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。


在概率论和统计学中,数学期望 (mathematic expectation )(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。


最简单的单符号信源仅取 0 和 1 两个元素,即二元信源,其概率为 P 和 Q = 1-P,该信源的熵即为如图1所示。


由图可见,离散信源的信息熵具有:

  • ①非负性:即收到一个信源符号所获得的信息量应为正值,H(U)≥0
  • ②对称性:即对称于 P=0.5
  • ③确定性:H(1,0)=0,即 P=0 或 P=1 已是确定状态,所得信息量为零
  • ④极值性:因 H(U) 是 P 的上凸函数,且一阶导数在 P=0.5 时等于 0,所以当 P=0.5 时,H(U) 最大。

对连续信源,香农给出了形式上类似于离散信源的连续熵,虽然连续熵 Hc(U) 仍具有可加性,但不具有信息的非负性,已不同于离散信源。 Hc(U) 不代表连续信源的信息量。连续信源取值无限,信息量是无限大,而 Hc(U) 是一个有限的相对值,又称相对熵。但是,在取两熵的差值为互信息时,它仍具有非负性。这与力学中势能的定义相仿。



为什么使用对数函数表示信息熵


通常, 一个信源发送出什么符号是不确定的, 衡量它可以根据其出现的概率来度量. 概率大, 出现机会多, 不确定性小; 反之不确定性就大.


  • 不确定性函数 f 是概率 P 的减函数;
  • 两个独立符号所产生的不确定性应等于各自不确定性之和,即 f(P1, P2) = f(P1) + f(P2),这称为可加性。而这两个事情同时发生的概率是 p(x, y) = p(x) * p(y)

同时满足这两个条件的函数 f 是对数函数,即

f(P) = log (1/p) = -log (p)

h(x, y) = -log(p(x, y)) = -log(p(x) * p(y)) = -(log(p(x)) + log(p(y))) = -(h(x) + h(y))

(log 按通常取值以 2 为底, 当然也可以以 e 为底)


之所以在前面需要加一个负号 是因为 p(x, y) 是一个概率, 必然取值在 [0, 1] 之间 而当 x 在 [0, 1] 时 log(x) 是一个小于 0 的值 但是信息量明显是一个大于 0 的值,所以我们在前面加上一个负号.

log2(x) 的图像如下


这样一个事件 X 发生时产生的信息量

可以表示为 H(X) = -log(P(X))


由于我们之前在介绍信息熵公式的时候说了 X 是一个取有限个值的离散随机变量 ,说明 X 可以取多个值, 所以信息熵其实是当 X 取不同值时对信息量取了期望.





信息含义


现代定义


信息是物质、能量、信息及其属性的标示。【逆维纳信息定义】
信息是确定性的增加。【逆香农信息定义】
信息是事物现象及其属性标识的集合。【2002年】


最初定义


信息理论的鼻祖之一 Claude E. Shannon 把信息(熵)定义为离散随机事件的出现概率
所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据 Charles H. Bennett对Maxwell's Demon 的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。

一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。


信息的作用


信息的基本作用就是消除人们对事物的不确定性.




熵的概念源自热物理学。


假定有两种气体 a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。




信息熵与信息量的关系

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。


信息熵是信息论中用于度量信息量的一个概念. 

一个系统越是有序, 信息熵就越低; 反之, 一个系统越是混乱, 信息熵就越高. 所以, 信息熵也可以说是系统有序化程度的一个度量.


信息熵的性质


  1. 非负性(Non-Negativity): 信息熵始终为非负值,即 H(X) ≥ 0。这是因为信息熵用于度量随机变量的不确定性,不确定性不可能为负。

  2. 最大值: 对于离散随机变量,信息熵的最大值出现在所有可能事件都是等概率的情况下,即 H(X) 最大当且仅当所有事件的概率相等。这时的最大熵等于 log2(n),其中 n 是事件的数量。这表示在所有可能事件都是等可能的情况下,不确定性最大。

  3. 对称性: 信息熵对事件的排列顺序不敏感,即 H(X) = H(Y) 当且仅当 X 和 Y 具有相同的概率分布。这意味着信息熵是与事件的概率分布而不是事件本身的标签相关的度量。

  4. 条件熵: 条件熵 H(Y|X) 衡量在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵满足 H(X, Y) = H(X) + H(Y|X),即联合熵等于边缘熵加上给定条件下的条件熵。

  5. 链式法则: 随机变量序列的联合熵等于各个变量的条件熵之和,即 H(X, Y, Z) = H(X) + H(Y|X) + H(Z|X, Y)。这是信息论中的一种基本性质。

  6. 相对熵(KL散度): 相对熵 Dkl(p||q) 用于度量两个概率分布 p 和 q 之间的差异,它始终为非负值,表示使用分布 q 来表示分布 p 时的信息损失。

  7. 最小化准则: 在信息论中,最小化信息熵通常被视为一种原则,即在不确定性不可避免的情况下,随机变量的概率分布趋向于最大化信息熵,以保持尽可能多的信息。

  8. 信息量: 信息熵可以用来度量单个事件或随机变量的信息量。信息量越大,表示事件的不确定性越大,反之亦然。












reference

https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5/7302318?fr=aladdin