第二章信息的统计度量

发布 2022-07-15 08:03:28 阅读 5126

我们上网时经常会发现我们的网速为100.0mbps,它表示的是什么意思呢?

它表示的是网络在一秒内可以传输100m个二进制位,如果信息编码效率。

为100%(在理想情况下)而传输又没有错误,则在一秒内可以传输。

100m比特的信息。于是我们自然想知道诸如**《红楼梦》包含多大。

的信息量之类问题的答案(因为它可以告诉我们需要多长时间把这本**。

**下来。)

设一个事件发生的概率为申农(他是信息理论的创始人)发现:

该事件的信息量可表示为:(这里。

表示的是:,是某个大于1的实数,我们要讲的是:

的大小是不确定的,是与有关的(因为单位不确定)

如果单位为比特,则)。

它表明:一个消息所包含的信息量的大小与它发生的概率。

大小之间是对数关系。

该定义的发现过程包括两个部分:

一):在实际中发现:。

二):在数学上发现如果函数具有性质:,则它可表示为如下形式:。

先来看(一):

一):我们发现当事件与统计独立而事件表示。

事件与的联合事件的时候,有:

以摸彩票为例子说明:

设总共发行了一亿张彩票,设为:“彩票a的前四位号码为0000”,为:“彩票a的后四位号码为0000”,联合事件为:“彩票a的号码为00000000”。

则显然有: 。

于是由(一)得到(把特殊情形的结果推广到一般情形下的结果):

(二)发现了函数的性质,接下来要利用该性质得到它的表示式)

三):我们要证明这样一个结论:

若函数满足:(它考虑的是三个不同。

的自变量的函数值之间的关系),则可如下表示:

它考虑的是函数值与自变量之间的关系)。

证明:设,我们可找到,使得。

因此下面我们要做的其实是:

证明对于有:。

也即对任意的有:

这个证明有三个步骤:

第一步要证明:对任意有:

它考虑的是两个不同的自变量的函数值之间的关系)。

证明的主要思想是:数学归纳法(每次让:

设,令,则有:

这样设我们就得到:。

第二步要证明对任意的正有理数,均有:

这一步的技巧有两个:

1)把有理数表示成如下形式:,这样一来只需证明:

2):构造一个中间变量:令,这样一来我们得到:

这里的第3个技巧是:要能从。

认识到:从这个结果我们认识到:这样设我们就可以得到:

第三步:要证明对任意的正实数,均有:

技巧是把实数b处理成有理数的极限。

设(这里为有理数),则有:

前面我们讲了定理:

如果满足:并且连续,则。

可表示为:的证明,现在我们来讨论我们如何欣赏。

这个证明中包含的技巧:

首先我们要认识到:。

注意:是从给出函数的表达形式这个角度来表述函数的性质,而是从任意两个自变量对应的函数值之间。

的关系这个角度来表述函数的性质。

证明的思路是首先认识到:不是一个完全确定的表达形式,因而总可找到一点:使得:,而由特殊的。

推广到一般的的关键技巧是要找到。

任意的与特殊的之间的关系(可以表示成:),这样就得到:。

这一步我们有两点体会:我们可以从多种不同的角度来描述一个函数的性质,要善于发现不同的数之间的内在联系(如可表示成:这种形式)。

现在我们来看如何证明,都有:。

我们要认识到:自然数正有理数正实数。

于是我们自然会有这样一种想法:

1)先证明:,都有:;

2)再证明:对任意有理数都有:;

3)最后证明:,都有:。

设,1)要证明:

2)要证明:

3)要证明:

也就是完成如下三步:

在证明过程中我们主要要有变化的思想(因为这里的。

是任意的,因而可以是变化的)。

先看(1):

令得到:,令得到:

令得到: 而合起来就得到:。

这里我们的基本想法是:让固定而让之间的关系不断变化。

这里我们也要体会到归纳法的基本想法把一个复杂的问题分解为若干个。

简单问题。)

再看(2):的证明:

我们要理解:中的既可以是:本身,也可以是。

这样我们就得到:

与。从而得到:。

再看(3):的证明:

这里我们要认识数学分析中的无穷小分析方法:我们可以通过证明。

两个数之间的距离为无穷小来证明这两个数相等,也就是说:通过。

证明任意小来证明。

若不相等,则大于某个固定的正数)

对任意的,存在使得:

并且,利用这一点,我们可得到:

从而得到:。

信息量的单位一般采用比特,这时。

上面谈了如何描述单个随机事件的信息量的定义。

设是一个随机事件集合,而是其中的一个随机事件。

且发生的概率为,则该事件发生后带给的信息量为:。

在大多数情况下,我们要知道的信息都不是单个的信息,而是联合信息(而且这些信息存在。

相关关系)。如我们对一个人的了解就包括他的身高、体重等等,对一个人。

成绩的了解就包括他各个单科的成绩。

现在我们就考虑这个问题:

a):首先我们举例说明什么是联合事件:

事件a :“a是中国人且是数学家”就是事件b “a是中国人”

与事件c “a是数学家”的联合事件。

两个随机事件的联合自信息量的定义。

二维联合集上的元素的联合自信息量定义为:

在这里,我们要把本身看做一个事件。

对于两个有关系的随机事件,我们主要考虑两个问题:

1) 当一个事件已经发生后,它会给出关于另一个还没发生的事件多少。

信息量?2)当一个事件已经发生后,另一个还没发生的事件还剩下多少信息量?

举一个例子来说明:

假设总共有32支球队参加比赛,现在有两个消息:

消息a:“中国女排前天已进入前两名”

消息b:“中国女排今天成为冠军”

则我们知道,对于一点都不知道中国女排水平的人来说,消息b包含。

的信息量是:,而当他知道消息a后,消息b包含的信息量。

只有:,而消息a给出了关于消息b包含的部分信息量。

对于两个离散随机事件集合和,事件的出现给出关于事件的。

信息量定义为:。

联合集中,事件在事件给定的条件下的。

条件自信息量为:。

上面的重点是要理解:联合自信息量、互信息量、条件自信息量三者。

之间存在如下两个关系:

或)。此外,还有如下两个性质:

与统计独立。

通过上面的讨论,我们对这样一些事情有了理解:

我们知道同一个消息对于不同的人来说,所包含的信息量不一样的。

的原因在于:该信息量是条件自信息量,而不是独立自信息量。

假设要在网上传输一封信,设在汉字中一个字为“我”的概率。

为0.002,为“们”字的概率为0.001,则我们知道,消息

该信中某个字为“我”的自信息量为比特,消息该信中某个字为“们”的自信息量为比特,再设字“我”的下一个字为“们”字的概率为0.1,而假设已经我们知道该信中某个字为“我”,则消息

该信的第10个字为“们”在消息。

该信的第9个字为“我”发生的条件下的条件自信息量为比特。

而两个消息之间的互信息量等于:比特。

上面我们介绍的信息量都考虑的是某个消息或某个事件本身的信息量,在实际中我们用得更多的是另外一种信息量:平均信息量。

如一个人买了一张彩票,他可能告诉我们“中了大奖”(设概率为),也可能告诉“没中大奖”。不论他告诉我们什么,我们都会得到一个。

信息量。如果我们把这个信息量按如下方式进行平均,我们就得到一个。

平均信息量:。

我们就得到平均自信息量的概念。

定义:集上,随机变量的数学期望。

平均自信息量)定义为:比特。

第二章统计

2.1 随机抽样。2.1.1 简单随机抽样。1.下列调查中,属于简单随机抽样的是 a.2014年仁川亚运会志愿者的体检。b.袋装牛奶合格率调查。c.日本首相 晋三的支持率调查。d.汽车车站行李安检。2.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列...

第二章统计

一 知识点。1 一般地,从个体为n的总体中抽取容量为n的样本,如果每一次抽取时总体中的各个个体被抽到,这种抽样方法叫这样抽取的样本,叫做简单随机样本。2和都是简单随机抽样。3 三种抽样方法的比较 4 画频率分布布折线图的步骤。5 在直方图中纵坐标是小矩形的面积。6 平均数 方差 标准差公式。7 回归...

第二章统计

一 选择题。1 某校有40个班,每班有50人,每班选派3人参加 学代会 在这个问题中样本容量是 a 40b 50c 120d 150 2 要从已编号 1 50 的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是 a 5,...