本章的主要目的:
掌握反映数据分布特征的中心、变化程度、位置等测度的工具;
会基本的考察性数据分析eda报告。
集中趋势是指一组数据向某一中心值靠拢的倾向,也就是寻找数据一般水平的代表值或中心值。如平均数、众数、中位数等。
1. 众数mode
众数是一组数据**现次数最多的变量值。是具有明显集中趋势的数值,一组数据分布的最高点所对应的数值即为众数。
既可用于定量数据,也可以用于定性数据。
可以有多个众数;也可以没有众数。图3-1。
对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系。
首先要找出频数最多的组,即为众数组,然后按相关公式计算之。图3-2。
实例3-1。
众数是一个位置代表值,不受数据中极端值的影响。其统计思想是:在一组数据的中心点附近,变量值出现的频数最高,根据众数组及相邻两组的频数分布,确定中心点的位置。
2. 中位数median
中位数是一组数据按大小排序后,处于正中间位置上的变量值。
中位数将全部数据分为两部分,一部分比它大,另一部分比它小。
也是一个位置代表值,中位数据位置=(n+1)/2。
对于组距分组数据,要先根据位置确定中位数所在组,再按公式计算。
实例3-2。
中位数大小也不受极端值影响。
3. 平均数mean
平均是指全部数据的算术平均。
总体平均数和样本平均数。
分组数据平均数的计算。以各组的组中值为代表。例3-3。加权平均数。
平均数是一个极为重要的统计变量,它是一组数据的重心所在,是数据误差相互抵消后的结果。
各变量值与其平均数的离差之和为0。
各变量值与其平均数的离差平方和最小。
平均数对每一个数值都很敏感。
4. 几何平均数 arithmetic mean
主要用于计算比率或速度的平均。例3-4。
5. 中列数 midrange
中列数是指原始数据集中最大值和最小值的平均。
6. 众数、中位数和平均数的比较。
图3-3。当数据呈对称分布或接近对称分布时,****值相等或相近,此时选择平均数作为数据集中趋势的代表值,因为其代表了全部数据的信息且易被人理解。
当数据为偏态分布时,且偏斜程度较高时,应选择众数或中位数等位置代表值。
平均数只适用于定量数据。而众数和中位数还可以适用于定性数据。
课堂练习一:顾客在银行a(在那里所有顾客都进入一个等待行列)和银行b(在那里顾客在三个办事员窗口处列队三排等待)的等待时间(分钟)分别:
银行a:6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
银行b:4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0
从集中趋势测度能否看出二者的区别?
上面的练习告诉我们什么?银行为什么要让顾客在一个等待行列中等待?从集中趋势测度我们没发现什么区别,顾客只是希望等待时间更加稳定,变化少一些!
数据的离散程度就是用来测度变化的,是数据分布特征的又一个极为重要的特征,它反映的是各变量值远离中心值的程度,离中趋势。
1. 极差。
全距。是一组数据的最大值和最小值的差。计算简单;只利用了数据两端的信息,不能反应中间数据的分散状况。
2. 方差和标准差。
方差是各变量与其平均值离差平方的平均数。总体与样本的计算方式不同。
a. 总体方差和标准差。
分组数据和未分组数据计算的不同。
标准差是有量纲的,与变量值的计量单位相同。
实际计算可以采取较简要的公式。
b. 样本方差和标准差。
样本方差的计算是用样本数据个数或总频数减1去除离差平方和。n-1称为自由度。例3-5。
课堂练习二:分别计算两个银行中顾客等待时间的标准差。
3. 标准化值z
消除量纲的影响,是指一个已知值超过或低于平均数多少个标准差的个数。也给出了一组数据中各数值的相对位置。
课堂练习三:美国nba的m. jordan身高78英寸,而wnba的身高76英寸。
很明显,jordan高2英寸,但谁相对来说更高一些?jordan在男性中的身高是否超过了lobo在女性中的身高?男性身高的平均数是69.
0英寸,标准差为2.8英寸;女性身高平均63.6英寸,标准差2.
5。解答]要比较他们相对于男性和女性总体的身高,我们需要通过将这些身高值转化为z值来将它们标准化。jordan:z=3.21;lobo:z=4.96。
jordan的身高高于平均数3.21个标准差,而lobo的身高高于平均数4.96个标准差,这是一个很大的数。lobo在女性中的身高要高于jordan在男性中的身高。
4. 离散系数。
是一组数据的标准差与其对应的均值之比。
消除变量值水平高低和量纲的影响。
离散系数越大的说明该组数据的离散程度越大,否则越小。例3-6
5. 解释和理解标准差。
标准差度量的是数据之间的变化。紧凑的数据将会产生一个小的标准差,而比较分散的数据将会产生一个较大的标准差。
实例:邮件的稳定性。
这里介绍三种不同的理解标准差数值的方法。
全距经验法则。
基本原理是对许多数值来说,样本值的大部分(如95%)位于平均数的2个标准差的范围内。估计 s = 全距/4。
如果标准差s已知,我们就可以粗略估计样本最大和最小的“通常”值。
最小通常值 = 平均数 – 2s
最大通常值 = 平均数 + 2s
正常值:-2≤z≤2
异常值:z<-2或z>2
课堂练习四:在第二章有男性的身高数据,其平均数为69.0英寸,标准差为2.8英寸。使用全距经验法则来计算通常的最高与最矮身高。
最小值=69.0-2*2.8=63.4英寸。
最大值=69.0+2*2.8=74.6英寸。
基于这个结果,我们预料典型的男性身高将在63.4—74.6英寸这个范围内。一些男性的身高没有落在这两个界限内,那些人是异乎寻常的高或矮。
钟形分布的数据的经验规则(68-95-99.7)
所有数据中,大约有68%的数据落在平均数一个标准差的范围内。
所有数据中,大约有95%的数据落在平均数二个标准差的范围内。
所有数据中,大约有99.7%的数据落在平均数三个标准差的范围内。
切比雪夫定理。
任意一个数据集中,位于其平均数k(k>1)个标准差范围内的比例(或部分)总是至少为1-1/k2,对于k=2或3有。
所有数据中,大约有75%的数据落在平均数二个标准差的范围内。
所有数据中,大约有89%的数据落在平均数三个标准差的范围内。
这一节学完之后,我们应该理解标准差是数值之间变异程度的一种度量。你应该认识到,对于典型的数据,一个数值和平均数的差额超过2或3个标准差是很少见的事情。
几个实例:方差和标准差计算。我们知道,方差与标准差越大,意味着数据的分散程度越大;相反,方差与标准差越小,则意味着数据的分散程度越小,也即向平均值的集中程度越高。
下表是1996年日本14家电器公司的销售额**口额所占的比重,求其方差s2和标准差s。
工作表: x=420/14=30
s2=2783/(14-1)=214
s=14.6
变动系数。在比较不同的数据组a和b的变动系数时,如果a的系数较大,说明a与b相比,数据的分散程度更大。下表是日本、德国、法国按美元表示的汇率变化情况,计算各国汇率的变动系数cv,并对结果进行比较。
日本cv=15.88/112.62=0.1410=14.10%
德国cv=0.1238/1.573=0.0787=7.87%
法国cv=0.3999/5.381=0.0743=7.43%
标准化值用来测算某个数据的数值与算术平均值的偏离程度,是标准差的多少倍。借此可以看出该数据在全体数据中所处的位置。
经济系的小王,在期末考试中,宏观经济学得82分,微观经济学是69分。宏观经济学的平衡成绩是72分,标准差是8,微观经济学的平均成绩是61分,标准差是5。计算标准化值,并回答小王的宏观经济学和微观经济学哪一个更好?
宏观经济学z=(82-72)/8=1.25
微观经济学z=(69-61)/5=1.60
微观经济学成绩更好。
前面说过众数、中位数和z是三个位置代表值。这里再介绍几个基本工具。
四分位数、十分位数和百分位数。
就像中位数把数据分成两个相等的部分一样,三个四分位数,用q1、q2和q3来表示,将排序数据分为4个相等的部分。
有9个十分位数,用d1,d2,d3,d4,d5,d6,d7,d8,d9来表示,它们将数据分为10组,每一组大约有10%的数据。百分位数有99个,表示为p1,p2,…,p99,它们将数据分为100个组,每个组中大约有1%数据。
实例一:表中列出了36罐普通可口可乐中饮料的重量(以磅计)。计算相对于重量0.8143磅的百分位。
0.8143前面有8 个数据,因此它的百分位数是(8/36)×100=22。
《统计学》数据分布特征的统计描述练习
a 上升 b 下降 c 不变 d 可能上升,也可能下降。9 权数对平均数的影响作用取决于在统计计算中,用来衡量总体中各单位标志值在总体中作用大小的数值叫权数。a 各组标志值的大小b 各组的次数多少。c 各组次数在总体单位总量中的比重 d 总体单位总量。10 当各个变量值的频数相等时,该变量的 a 众...