第4讲自信息

发布 2023-04-19 14:42:28 阅读 6323

这一讲我们将定义消息和随机事件所含的信息量。

1. 自信息。

香农认为,信息可以消除我们对于事物认识上的不确定性,越不可能发生的事情一旦发生就可以消除较大的不确定性,所以应当含有较多的信息。由此,香农认为,应当用事件的发生概率确定该事件所含的信息量,概率越小的事件所含的信息量越大,而必然事件的信息量最小,指定为0。

(本人猜测:也许真正的因果关系是,信息量决定着事件的发生概率,信息量较少的事件更容易发生。)

定义1.1 事件或者消息a的自信息(self-information)定义为。

其中p(a)为a的概率,对数底默认为2,单位为比特(bit)。

比特是二进制符号的单位,香农将它转用为信息量的单位。国家标准和国际iso标准中,信息的基本单位是sh,翻译为“香农”。事实上根据规定可知,1香农=1比特。

还有其它单位:

当对数底取10时,对应的信息单位为hart,译为“哈特”。因此,1哈特=log10比特。

当对数底取e时,对应的信息单位为nat,译为“奈特”。我们有。

1奈特=loge比特。

一般地,当对数底为r>1时,自信息的单位为“r-进制单位”。换算关系如下:

自信息的物理意义。

1)是随机事件发生所提供的信息量。

2)反映了随机事件的不确定性大小。

定理1.2(自信息的性质)

1. 单调性:i(a)是概率p(a)的严格递减函数。

2. 非负性:i(a)≥0

3. 可加性:若两个事件a与b相互独立,则积事件ab的信息量为。

i(ab)=i(a)+i(b)

例1.3 今有12枚外观相同的金币,其中有1枚重量不同的伪币。需获得一定的信息才能找出这枚伪币,如下各消息分别提供多少信息量?

1) 消息1:伪币在12枚金币中。

2) 消息2:伪币在第1至6号金币中。

3) 消息3:第3枚是伪币。

4) 一种获得信息的方法是用无砝码的天平称量两组金币,可以比较出两组金币的重量。每次称量有三种可能结果,即左盘轻,右盘轻,两盘重量相同。现在我们将这12枚金币等分为两组,试计算三种称量结果的信息量。

5) 左右两边各放上4枚金币,试计算三种称量结果的信息量。

2. 自信息定义的合理性。

定理2.1(自信息定义的合理性)任何满足定理1.2中上述3条性质的函数i(a)一定可表示为如下形式:

证明令x=p(a)且f(x)=i(a)。应用下列引理可立刻证明本定理证毕。

引理设实函数f(x), 0< x≤ 1,满足以下条件。

1. f(x) ≥0.

2. f(x)是严格单调减函数, 即若xf(y).

3. f(xy)=f(x)+f(y)

则存在常数r>1使得。

证明:根据条件3可得

f(xk)=kf(x1)

从而 f(1)=0。根据f的单调递减性,对于任何00。

令00,存在n,使得yn+1≤xk≤yn,从而

另一方面,根据f的单调性,有

再根据(1),可得

比较上述两组不等式可得。

因为k可以任意大,故有

从而,对于任何0< x因此,存在常数c<0,对于任何0

由此可得,存在常数r>1,对于任何0

证明 3. 联合自信息与条件自信息。

定义3.1 设x,y是两个随机事件。

1. x和y的联合自信息(joint self-information)定义为积事件xy的自信息,即。

是两个事件所提供的总的信息量。

2. x在条件y下的条件自信息(conditional self-information)定义为条件事件x|y

的自信息,即。

是在已知条件y时x所含的新的信息量。

思考:在什么时候有?

在什么时候有?

链法则:根据定义可得。

更一般地,例3.2 在例1.3的伪币称量问题中,令事件x=伪币在1-6号金币中,y=伪币在4-7号金币中。

试计算i(x), i(y), i(xy), i(x|y)和i(y|x)。

4. 互信息。

定义4.1 两个随机事件x与y的互信息(mutual information)定义为。

物理含义:1) x中包含的关于y发生的信息。

2) y中包含的关于x发生的信息。

两个事件之间的相互依赖性(或者相关性):

1) 相互独立:一事件的发生不对另一事件有任何影响,即p(xy)=p(x)p(y), 此时互信息i(x;y)=0,表明事件x不能提供关于y发生与否的任何信息。

2) 正相关:一事件的发生有利于另一事件的发生,即p(xy)>p(x)p(y), 此时互信息i(x;y)>0,表明x可以提供y发生的信息。

3) 负相关:一事件的发生不有利于另一事件的发生,即p(xy)自信息的名称**:i(x;x)=i(x)

例4.2 接例3.2,试计算i(x;y)。

例4.3 1)已知在英语文章中字母a出现的概率为0.064,c出现的概率为0.022,分别计算它们的自信息量。

2)假定前后字母出现是互相独立的,计算字母组合ac出现所提供的信息量。

3)假定当a出现后,接着出现c的概率为0.04. 试计算ac中c所提供的不在a中的信息量。

补充练习。1. 在例2.3的伪币称量问题中,若用天平比较两枚金币的重量,则三种结果的信息量分别是多少?

2. 在掷色子游戏中,当得知两个色子的点数之和为3时获得多少比特的信息?

3. 已知平均100人中有2人患有某种疾病,为了查明病情,必须进行某项指标的化验。这种化验的结果对于有病的人总是阳性的,对于健康的人来说有一半可能为阳性、一半可能为阴性。

若x表示有这种病,y表示化验结果为阳性,试计算i(x|y)与i(x;y)并说明其含义。

作业。1 课本第63页习题2.3, 2.4和2.5.

2. 试证明。

信息安全基础第4讲

天津铁道职业技术学院。教师课时授课计划。no.4 教研室主任审阅签字09 年月日。一 任务与要求。windows server 2003安装完成后,对系统进行安全设置。windows server 2003在默认安装的时候,基于安全的考虑已经实施了很多安全策略。但由于windows操作系统的特殊性,...

实验第4讲

实验四matlab数值计算。一 实验目的。1.掌握线性方程组的求解方法。2.掌握数值插值与曲线拟合的方法及应用3.掌握求数值导数和数值积分的方法4.掌握非线性方程组的求解方法。二 实验内容。1.求解线性方程组2.线性插值与曲线拟合3.求数值导数和数值积分4.非线性方程组的数值解。三 实验过程。1.求...

第4讲概述

关于两个管理层次在工程建设各个阶段的咨询业务,表1 2进行了对比 项目管理层次阶段性工作和工程咨询业务关系表。2007年真题 项目执行管理层次委托的融资咨询是项目周期中 的工作。实施阶段 b 完工阶段 c 准备阶段 d 策划阶段。答案 c2007年真题 在项目实施阶段为项目决策管理层次提供的工程咨询...