概率统计基础知识及其在。
matlab中的实现。
一假设检验的基本概念。
前面我们讲了如何根据子样去得到母体分布所含参数的优良估计。用这样得到的估计值作为参数的母体必须与真的母体作比较,考察它们之间是否在统计意义上相吻合。显然,这种比较也只能在子样的基础上进行。
怎样在子样基础上作出一个有较大把握的结论就是统计假设检验问题。
假设检验是统计推断的一个基本问题,在总体的分布函数完全未知或只知其形式但不知其参数的情况下,为了推断总体的某些性质,先对总体的分布类型或总体分布的参数做某种假设,然后根据样本提供的信息,对所作的假设作出是接受,还是拒绝的决策,这一过程就是假设检验。
1)假设检验的基本原理。
例某鱼池中养着有红鱼及黑鱼,总数为100,但不知红鱼和黑鱼各占多少。现提出假设:其中99条鱼是红鱼。
现在来判断这个假设是否成立。先假设成立(为真),那么“从池子中任意捞一条鱼,捞出的是黑鱼”这一事件的概率为,我们认为这是一个小概率事件。如果捞一条鱼居然是黑鱼,那么就应该拒绝,即认为白鱼的数量不是99。
如果任意捞出一条是白鱼,此时没有拒绝的理由,则接受。
但是,这样作的决策就没有问题吗?肯定是正确的吗?)
什么小概率?
1. 在一次试验中,一个几乎不可能发生的事件发生的概率。
2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设。
3. 小概率由研究者事先确定。
假设检验的基本原理:首先提出原假设,其次在成立的条件下,考虑已经观测到的样本信息出现的概率。如果这个概率很小,这就表明一个概率很小的事件在一次实验中发生了。
而小概率原理认为,概率很小的事件在一次实验中几乎是不发生的,也就是说在成立的条件下导出了一个违背小概率原理的结论,这表明假设是不正确的,因此拒绝,否则接受。
2)假设检验的两类错误。
假设检验中作出推断的基础是一个样本,是以部分来推断总体,因此不可避免地会犯错误。第一类错误(弃真错误):为真而拒绝;第二类错误(取伪错误):不真而接受。
犯第一类错误的概率记为,犯第二类错误的概率记为。我们当然希望犯两类错误的概率都很小,但是,进一步讨论可知,当样本容量固定时,若减少犯一类错误的概率,则犯另一类错误的概率往往增大。若要使犯两类错误的概率都减小,则须增加样本容量。
通过图示可知两类错误之间的关系:说明假设检验就像一场审判)
在给定样本容量的情况下,一般来说,我们总是控制犯第一类错误的概率,使它不大于,即令,通常取等。这种只对犯第一类错误的概率加以控制。而不考虑犯第二类错误的概率的检验,称为显著性检验。
是一个事先指定的小的正数,称为显著性水平或检验水平。
3)假设检验的步骤。
例1 某车间用一台包装机包装葡萄糖。包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为公斤,标准差为公斤。
某日开工后为检验包装机是否正常,随机地抽去它包装的糖9袋,称得净重为(公斤):
问机器是否正常?
该问题可叙述为:在检验水平下,检验假设。
称为双边检验。
与双边检验对应的内容是单边检验,包括:
右边检验:
左边检验:
下面来求解例3
解设:这天袋装糖的重量,则~,未知。
是的无偏估计。
为真时,不应过分大。
即:若,则拒绝。
为了确定常数,我们首先选取检验统计量。
当为真时,~,记(检验统计量),。
令,即,则。 即为真时,事件“”为小概率事件。
取,代入样本值,, 所以拒绝,即认为该天包装机工作不正常。
不等式,即称为拒绝域,称为临界点。
假设检验的步骤:
1、提出原假设和备择假设。
2、给定。3、选取检验统计量及确定拒绝域的形式。
4、令,求拒绝域。
5、由样本值作出决策:拒绝或接受。
例1中,我们选取的检验统计量为,所用的检验方法称为检验法。
例2 某种产品质量~(单位:g)。更新设备后,从新生产的产品中随机抽取100个,测得样本均值。若方差没有变化,问设备更新后,产品的平均质量是否有显著变化?()
解。拒绝域为,因。
故拒绝,即认为产品平均质量有显著变化。
4)其他例题。
问题1.根据以前资料,其大学体育系百米跑平均成绩今随机抽测16人,百米跑平均成绩,问该系百米跑成绩与以前相比有无显著变化?
问题2 某人以前投篮命中率为70%,经过一段时间训练,抽测10次投篮,结果投中8次,问题其投篮命中率有无提高?
问题3 为了研究甲、乙两地18岁男子的身高,今从两地分别随机抽测50人和60人,得到平均身高分别为,问甲、乙两地18岁男子的身高有无差异?
问题4 为了检查某种短跑训练方法的效果,对20人进行实验测得训练前百米跑平均成绩,训练后为问该训练方法是否具有显著效果?
二方差分析。
在假设检验中,我们研究了一个样本的平均数或比例与假设的总体均值或比例的差异是否显著的问题。我们也研究了两个样本的平均值和比例差异是否显著的问题。但是如果需要检验两个以上总体的均值是否相等,上一章所介绍的方法就不再适用了。
这需要用方差分析的方法来解决。
方差分析主要用来检验两个以上样本的平均值差异的显著程度,由此判断样本究竟是否抽自具有同一均值的总体。方差分析对于比较不同生产工艺或设备条件下产量、质量的差异,分析不同计划方案效果的好坏和比较不同地区、不同人员有关的数量指标差异是否显著时,是非常有用的。
例题为了比较三种不同材料对产品寿命的影响,试验人员分别对三种不同材料所制造的一组产品的寿命进行了测试,所得结果如表1所示 (为简化计算,以各取4个样本为例)。
表1 某种材料使用寿命的抽样统计表。
现要求根据上述试验结果,显著性水平为的条件下,检验所选用的材料对最终产品的使用寿命的影响是否显著。从统计的角度看,就是要检验三种不同的材料所生产的最终产品的使用寿命的均值是否一致。
通常,在方差分析中,我们把对试验结果发生影响和起作用的自变量称为因素。如果方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。在本例中,因素就是可能影响产品使用寿命的材料。
因素的不同选择方案称之为因素的水平。上例中材料有三种不同的选择就说因素有三个水平。因素的水平实际上就是因素的取值或者是因素的分组,例如,可以在包装、质量、**和销售区域等方面取不同的值或分为不同的组,就表示因素选了不同的水平。
方差分析要检验的问题就是当因素取不同的水平时,对结果有无显著的影响。若无显著影响,则随便选择哪一种材料都无所谓。否则就要选择最终产品寿命最长的一种材料。
一般地,我们假定所检验的结果受某一因素的影响,它可以取个不同的水平:。对于因素的每一个水平都进行次试验,结果分别为,我们把这一组样本记作,假定,即对于因素的每一个水平,所得到的结果都服从正态分布,且方差相等。
用统计的语言来表达,要检验的假设就是:
:不是所有的都相等().
由此可见,方差分析是研究一个或多个可分组的变量(称为自变量)与一个连续变量(因变量)之间的统计关系,并测定自变量在取各种不同水平时对因变量的影响和作用的一种统计分析方法。。
方差分析的基本思路是:一方面确定因素的不同水平下均值之间的方差,把它作为对由所有试验数据所组成的全部总体的方差的一个估计值。另一方面,再考虑在同一水平下不同试验数据对于这一水平的均值的方差。
由此,计算出对由所有试验数据所组成的全部数据的总体方差的第二个估计值;最后,比较上述两个估计值。如果这两个方差的估计值比较接近就说明因素的不同水平下的均值间的差异并不大,就接受零假设。否则,就说明因素的不同水平下的均值间的差异比较大,就接受备择假设。
根据上述思路我们可以得到方差分析的方法和步骤。
1) 提出假设。
即因素的不同水平对试验结果无显著影响,不是所有的都相等(),即因素的不同水平对试验结果有显著影响。
2) 方差分解。
我们先定义总离差平方和为各样本观察值与总均值的离差平方和。
记作。sst=
其中:是样本总均值,即。
为样本观察值总数。
将总离差平方和分解为两部分:sst=
其中:是第个样本的平均值,即。
记。sse=
表示同一样本组内,由于随机因素影响所产生的离差平方和,简称为组内平方和。
记。ssr=
表示不同的样本组之间,由于变异因素的不同水平影响所产生的离差平方和,简称为组间平方和。
由此可以得到。
对应于,和的自由度分别为:,,
相应的自由度之间的关系也有:
3)检验。将和分别除以其自由度,即得各自的均方差:
组间均方差
组内的均方差
统计上可以证明。
由此可见,如果原假设成立,则=;否则》。
根据分布,如果原假设成立,那么和均是的无偏估计,因而就服从自由度为和的分布。
检验统计量。
如上所述,当原假设成立时, =此时较小,值也较小。反之不成立时,较大,值也较大。对于给定的显著性水平查分布表得到。
如果,则原假设不成立,即个组的总体均值之间有显著的差异,就拒绝。若,则原假设成立,即个组的总体均值之间没有显著的差异,就接受。
4)方差分析表。
上述方差分析的方法可以用一张标准形式的**来实现,这种**称为方差分析表。它将方差分析的计算方法以简洁的形式进行总结。**分为五列,第一列表示方差的**,第二列表示方差的离差的平方和,第三列表示自由度,第四列为均方差,第五列为统计检验量。
**又分为三行。第一行是组间的方差和均方差,表示因素的不同水平的影响所产生的方差,其值作为计算统计检验量时的分子;第二行是组内方差和均方差,表示随机误差所引起的方差,其值作为计算统计检验量的分母,第三行是检验行,表示总的方差。
数学九年级基础知识 统计与概率
2019年最新数学九年级基础知识 统计与概率。易错分析 易错点1 中位数 众数 平均数的有关概念理解不透彻,错求中位数 众数 平均数。易错点2 在从统计图获取信息时,一定要先判断统计图的准确性。不规则的统计图往往使人产生错觉,得到不准确的信息。易错点3 对全面调查与抽样调查的概念及它们的适用范围不清...
概率论基础知识
第三章二维随机变量及其分布。一 二维随机变量及其联合分布 设 为某实验的样本空间,x和y是定义在 上的两个随机变量,则称有序随机变量对 x,y 为。比如,研究某地区人口的健康状况可能取身高和体重两个参数作为随机变量 打靶弹着点选取横纵坐标。3.1.1联合分布函数 定义1 设 x,y 为二维随机变量,...
2023年《统计基础知识与统计实务》全真试题 2
a.品质数列b.变量数列。c.分组数列d.组距数列。e.等距数列。10.以下各项中,导致从业人员减少的有。a.开除b.辞退。c.终止合同d.内部退养。e.工作调动。三 判断题 请将答案填写在题干后面的括号内,正确的划 错误的划 10道题,每题2分,共20分。1.某一变量分为下述两组 15 20,21...