引子:当考察的总体比较多,往往需要抽出部分个体,通过样本特征反应总体特征。首先要学习抽样,其次学习通过样本分析总体特征。
1、怎样从总体中抽取样本。
2、如何表示抽取的样本数据。
3、如何从样本数据中提取基本信息,来推断总体的情况。
一、随机抽样。
1、知道要收集的数据是什么。
2、我们检查样本的目的是为了了解总体的指标。
3、要让收集的样本数据能很好地反应总体,需要设计抽样方法时,将总体“搅拌均匀”,使每个个体都有同样的机会被抽中。
2.1.1 简单随机抽样。
要求:使用抽签法或随机数法抽取样本。
概念:设一个总体含有n个个体,从中逐个不放回地抽取n个个体作为样本(n≤n),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。分为抽签法、随机数法。
1、简单随机抽样的五个特点。
1)总体n个个体是有限个数。(有的题中会告知,总体个数是无限个,此时不能使用简单随机抽样的方法)
2)样本容量n≤总体个数n
3)样本从总体中逐个抽取。(如果一次性抽取则不能使用该方法)
4)不放回的抽取。(如抽签)
5)每个个体被抽到的机会均等。
2、抽签法。
五个步骤。1) 给总体中的各个个体编号,编号从1到大写n。
2) 把号码写在形状、大小相同的号签上。
3) 把号签放在不透明的容器中搅拌均匀。(保证每个抽到的机会均等)
4) 从容器中每次抽出一个号签并记录该编号,连续抽取n次。
5) 从总体中把与编号一致的个体取出来。
优劣。1) 总体个数不多时,简单易行。
2) 总体数量较大时,编号、抽签较为费时费力。搅拌难以均匀,使得抽出的样本无法有效代表总体特征。
3、随机数表法。
四个步骤。1)将总体中所有个体编号。
2)在随机数表中任选一个数作为开始。
3)从选定的这个数开始,按照一定的方向,一定规则读下去。得到的数码若不在编号中则跳过去,在编号中就取出来,(若得到数码是已经得到的数码也跳过去),如此进行下去,直到取满为止。
4)根据选定的号码,抽取样本。
优劣。相对于抽签法避免了搅拌不均匀的可能性的弊端,但在读书与计数时容易出现错误。(由于个人失误引起)
例1、下边的抽样是简单随机抽样吗,为什么?
a、从无限多个个体中抽取100个个体作为样本。
b、从20个零件中一次性的抽出3个进行质量检验。
c、一个儿童从玩具箱的20个玩具中,随意拿出一件来玩,玩后放回,再拿一件,连续玩了5件。
d、某班45名同学,指定个子最高的5名同学参加学校组织的某项活动。
例2、现从80件产品中随机抽出20件进行质量检验,下列说法正确的是。
a、80件产品是总体
b、20件产品是样本
c、样本容量是80
d、样本容量是20
例3、某单位对口支援西部开发,现从报名的18名志愿者中选取6人组成志愿小组到**工作3年, 请用抽签法设计抽样方案。
例4、现有一批零件,其编号为600,601,…,999.利用原有的编号从中抽取一个容量为10的样本进行质量检查。若用随机数表法,怎样设计方案?
例5、假设一个总体有5个个体,分别记为a,b,c,d,e。现采用不重复抽取样本的方法,从中抽取一个容量为2的样本,可能的样本共有多少个?写出全部可能的样本。
随机抽样(二)
2.1.2系统抽样、分层抽样(解决总体容量、样本容量较大的情况)
一、系统抽样。
1、概念:将总体分成均等的几个部分,按照预先定好的规则,从每个部分抽取一个个体,得到所需的样本,这种抽样的方法叫系统抽样,也叫等距抽样。
2、四个步骤。
1) 把总体中个体进行编号编号。
2) 把整个编号按一定间隔分段。当 = k(n是样本容量),k是整数时,就分为k段;若k不是整数,则从n中随机剔除m个个体后得到n’,使得= k 为整数。(注意,随机剔除m个后,仍保证每个个体入样的可能性相等分段。
3) 在第一段中用简单随机抽样确定一个起始个体编号l0;第二段中取出的个体编号为l0+k;第三段中的编号为l0+2k订号。
4) 抽出对应号码的样本。
注意:譬如有1003个号码,我们要剔除掉3个。假如抽出的是这三个号码,为使得每个被抽取的样本个体机会均等,可以把重新编号为,也可以把所有个体全部打乱,重新编号。
3、几点注意:
1) 系统抽样使用于总体个数较多的情况,使用简单随机抽样不方便。
2) 系统抽样与简单随机抽样间有紧密联系。在第二步剔除不要元素时用到简单随机抽样,在第三步中选择编号l0也用到简单随机抽样。
3) 系统抽样属于等概率抽样,可以保证每个个体的入样可能性都相同。
二、分层抽样。
1、概念:当总体由差异明显的几个部分构成,将总体中的个体按不同的特点分成层次较明显的几部分,然后按各部分在总体中所占比例实施抽样,也叫比例抽样。
2、四个步骤。
1) 把总体按一定的标准分层。
2) 计算各层个体数与总体个体数之比。
3) 根据第二步中的比值,确定各层所应抽取的样本容量。
4) 在每一层进行简单随机抽样。
3、分层的标准。
1) 以调查研究的主要变量及相关变量作为分层的标准。
2) 要保证样本与总体结构的一致性。
3) 所得到的样本不是整数,可做一定的近似处理。
例1、人们打桥牌时,将洗好的扑克牌随机确定一张为起始牌,这时,开始按次序起牌,对任何一家来说,都是从52张总体中抽取13张的样本,问这样的抽样方法是否为简单随机抽样。
例2、为了了解某大学一年级新生英语学习的情况,拟从 503 名大学一年级学生中抽取 50 名作为样本,如何采用系统抽样方法完成这一抽样?
例3、某工厂平均每天生产某种零件大约10000件,要求产品检验员每天抽取50个零件检查其质量状况。假设一天的生产时间中生产机器零件的件数是均匀的,请设计一个抽样方案。
例4、某装订厂平均每小时装订图书362册,要求检验员每小时抽取40册图书进行质量检验,请你设计一个抽样方案。
例5、为了调查某班40名学生的身高情况,利用系统抽样的方法,抽取样本容量为5.这个班共分5个组,每个组都有8名学生,他们的座次是按照个子高矮进行编排的。小王是这样做的,抽样距是8,按照每个小组的座次顺序进行编号,你觉得这样抽取的样本具有代表性吗?
若进行改进,样距仍然是8,按照全班同学身高进行编号,这样做有代表性吗?
例6、某电视台在因特网上就观众对某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下表所示:电视台为了进一步了解观众的具体想法和意见,打算从中再抽取60人进行更为详细的调查,应怎样进行抽样?
二、 用样本估计总体。
上节课说明了如何收集样本,本节介绍如何通过样本来了解总体特征。
2.2.1 用样本的频率分布估计总体分布。
1、频率分布直方图。
样本中所有数据的频数和样本容量的比,称为该数据的频率。所有数据或数据组的频数的变化分布情况叫样本的频率分布。
频率分布的表现形式有以下几种:
样本频率分布表;
样本的频率分布直方图;(可明确直**出每一段数据所占频率,无法直接看出原始样本数据。)
做频率分布直方图的步骤:
1) 求极差(目的是为了第二步的分组)
2) 决定组距和组数(当样本容量在100以内,按照数据的多少分为5-12组)
3) 将数据进行分组。
4) 列出频率分布表。
5) 画出直方图。
2、频率分布折线图和总体密度曲线。
把频率分布直方图各小长方形上端中点用折线连接起来构成频率分布折线图。该图反应数据变化发展的一个趋势。
当组样本容量越大,组距越小,该折线图越接近一条曲线,称为总体密度曲线。我们可以用该曲线图形对总体进行估计,只有当样本容量越大时,这种估计就越精确。
3、用茎叶图估计总体。
所有数据信息都可以从这张茎叶图中得到,但数据较多或非常分散时,茎叶图的表示效果略差。对于两位数、三位数的样本数据都可以用茎叶图表示。
频率分布直方图与茎叶图关系。
频率分布直方图无法直**到原始数据,可通过图形看出数据的大致分布情况,体现非常详尽的数据间的分布情况。茎叶图可看出原始数据。
例1:下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高 (单位cm)
1) 画出频率分布直方图;
2) 画出频率分布折线图;
3)估计身高小于134 cm的人数占总人数的百分比;
例2:为了了解某地高一学生的体能状况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形的面积之比为2:4:
17:15:9:
3,第二小组频数为12.
1)第二小组的频率是多少?样本容量是多少?
2)若次数在110以上为达标,试估计全体高一学生的达标率为多少?
3)通过该统计图,可以估计该地学生跳绳次数的众数是___中位数是___
例3:从两个班中各随机抽取10名学生,他们的数学成绩如下:
甲班; 乙班
画出茎叶图并分析两个班同学数学的学习情况。
例4、为了了解一大片经济林的生长情况,随机测量其中的100株的底部周长,得到如下数据表(单位长度:cm)
1) 编制频率分布表;
2) 绘制频率分布直方图及折线图;
3) 估计该片经济林中底部周长小于100cm的树木约占多少,周长不小于120cm的树木约占多少。
2.2.2 用样本的数字特征估计总体特征。
样本的数字特征有:
一、 众数、中位数、平均数。
1、概念。众数:出现最多;(频率分布直方图中最高的小长方形横坐标中点)
中位数:奇数个时为最中间的数字,偶数个时是中间两个数字的平均值;
平均数:和/个数;
2、注意几点。
频率分布直方图中的众数与样本中的实际值有所偏差,中位数则在图中无法体现,因此往往求具体值需要直接从样本入手。
众数、中位数不受极端值的影响,即最大值、最小值不会影响众数、中位数。平均数可以反映到所有的数据,但特别受到极端值的影响。
第二章统计
2.1 随机抽样。2.1.1 简单随机抽样。1.下列调查中,属于简单随机抽样的是 a.2014年仁川亚运会志愿者的体检。b.袋装牛奶合格率调查。c.日本首相 晋三的支持率调查。d.汽车车站行李安检。2.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列...
第二章统计
一 知识点。1 一般地,从个体为n的总体中抽取容量为n的样本,如果每一次抽取时总体中的各个个体被抽到,这种抽样方法叫这样抽取的样本,叫做简单随机样本。2和都是简单随机抽样。3 三种抽样方法的比较 4 画频率分布布折线图的步骤。5 在直方图中纵坐标是小矩形的面积。6 平均数 方差 标准差公式。7 回归...
第二章统计
一 选择题。1 某校有40个班,每班有50人,每班选派3人参加 学代会 在这个问题中样本容量是 a 40b 50c 120d 150 2 要从已编号 1 50 的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是 a 5,...