(方差分析,回归分析,试验设计)
大纲要求。一、方差分析。
一)方差分析基本概念。
1.掌握因子、水平和方差分析的三项基本假定。
2.熟悉方差分析是在同方差假定下检验多个正态均值是否相等的统计方法。
二)方差分析方法。
1.掌握单因子的方差分析方法(平方和分解、总平方和、因子平方和、误差平方和,自由度、比、显著性)
2.了解重复数不等情况下的方差分析方法。
二、试验设计。
一)基本概念与正交表。
1. 了解试验设计的必要性。
2. 熟悉常用正交表及正交表的特点。
二)正交试验设计与分析。
1.熟悉使用正交表进行试验设计的步骤。
2.掌握无交互作用的正交试验设计的直观分析法与方差分析法。
3.熟悉贡献率的分析方法。
4.了解有交互作用的正交试验设计的方差分析法。
5.熟悉最佳水平组合的选取。
三、回归分析。
一)散布图与相关系数。
1. 掌握散布图的作用与作法。
2. 掌握样本相关系数的定义、计算及其检验方法。
二) 一元线性回归。
1. 掌握用最小二乘法建立一元线性回归方程的方法。
2. 掌握一元线性回归方程的检验方法。
三) 了解可化为一元线性回归的曲线回归问题。
一、方差分析内容提要。
1.1方差分析基本概念。
1.1-1引例—— 例2.1-1] ,p87 .
表2.1-1 三个工厂的零件强度。
零件强度测定——试验。
零件强度数据——(试验)指标。
工厂——影响指标的一个因素或因子。
因子——试验中会改变状态的因素,常以表示。
因子的水平——因子所处的状态。
单因子试验问题。
—试验中所考察的因子只有一个。
如本例,即为一单因子试验问题:
工厂——因子;
甲、乙、丙工厂——因子的三个水平,—;
零件强度数据。
—指标,显然可视之为某种随机变量。
从而对应于可有,而不同工厂不同零件的强度值可统一记之为。
由此,本例可用统计语言表述为:
此处研究的是。
三个相互独立的总体(随机变量):;
其样本为(相应的样本量都为)。
对于与本例类似的一般情形,可引申出如下的几个概念。
1.1-2几个概念。
假定——因子有个水平:,在每个水平下指标的全体都构成一个总体,从而对应有个相互独立的总体:
再假定——从而相应有其样本量都为的个样本:
由此再提出如下假设检验问题:
不全相等。再运用如上样本作出检验,当判定不真时,即表示不同水平下的指标的均值有显著性差异,此时称因子是显著的;否则称因子不显著。
此即常用统计技术之一的方差分析。
综上所述,有。
方差分析是:
在相同方差假定下检验多个正态总体均值是否相等的一种统计分析方法。
再具体而言,该问题有如下三项基本假定:
1)在水平下,指标服从正态分布;
2)在不同水平下,方差相等;
3)数据相互独立。
方差分析就是在这些基本假定下对上述一对假设()进行检验的一种统计方法或技术。
1.2方差分析方法。
1.2-1 单因子方差分析。
1)单因子试验数据表。
可见其中的表示因子第个水平下的第次重复试验结果,分别表示第水平下的数据(样本)和与数据(样本)均值。每个样本的样本量都为,总数据(总样本量)为,显然一般这个数据不全相同。这个数据的总平均为。
2)平方和分解。
总(离差)平方和。
—反映这个数据的总差异或总波动:
用上式右端算法可减少舍入误差,下同。)
它可再分解为如下两种平方和,即。
其中为因子(或组间)平方和,即有。
它所反映的是:由于因子的水平不同,即当假设不真时,各水平下指标的均值不同而必然会使试验结果不同。
为误差(或组内)平方和,即有。
它所反映的是:由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子的水平外的其他所有原因引起的,将它们归结为随机误差。
3)自由度及其分解。
可以设想:当不真时,因子水平不同引起的波动相对于误差来是较大的;而当为真时,两者都可看成都是由随机误差波动所引起,它们都可作为误差方差的某种估计。由于这两者所包含的误差的量有所差别,故为进行比较,还需将每个平方和除以各自的自由度。
自由度分解式有:总平方和的自由度可分解为因子平方和的自由度与误差平方和的自由度之和,即。
4) 均方——因子或误差平方和与相应的自由度之比,即分别为。
5)比与显著性——
比: 以上求比值过程常一并列成如下的单因子方差分析表,以一目了然。
单因子方差分析表。
显著性:即当与相差不大时,则可认为因子不显著;
当相对于大得多时,则可认为因子显著。
亦即有:当(以下与在抽样分布中给出分布类似)
时,则可认为因子在显著性水平上是显著的。
其中为自由度为的分布的分位数,可从pp.327-331, 附表1-6查得。
综上,方差分析的一般步骤如下:
1)计算因子的每一水平下的和及总和;
2)计算各类数据的平方和;
3)依次计算;
4)计算各均方及比值并列出方差分析表;
5)对给定的显著性水平, 将求得的比与分布表中的比较, 当时认为因子是显著的, 否则认为因子是不显著的。
具体计算分析例见p87,[ 例2.1-1]及pp.92-93,[ 例2.1-2]。
尤其在[ 例2.1-2] 中,尽管没有直接给出“原始数据”,而给出的是经过初步“加工”的如p92给出“表2.1-5” 的情形时, 只要将前面的算式稍作改变(或再结合具有统计功能的计算器作相应的灵活计算)后, 亦可作出方差分析。
1.2-2重复数不等的情况。
——当在水平下进行了次不等重复试验,此时有有别于前面相应的相等重复的,于是只需改功如下两个算式。
后,方差分析亦可进行。见pp.92-93,[ 例2.1-3]。
以上是单因子试验情形。若在一个试验中所要考察的影响指标的因子,如有等更多因子,即多因子试验情形,此时往往要事先进行试验设计,从而提出如下内容(拟将教材内容顺序作如下变动)。
二、试验设计内容概要。
一)试验设计的基本概念与正交表。
2.1-1试验设计及其必要性。
可以说,产品质量是设计出来的,也是生产乃至检验出来的。 总而言之,高质量的产品是用科学的、有效的方法或手段管理出来的。
尤其在新产品的开发设计阶段,或是在生产过程中,经常会遇到多因素(因子)的试验设计问题。
而多因素(因子)试验首先遇到的最大困难是试验次数太多,以至让人无法忍受!
再因多个因子之间可能存在。
交互作用——
某两个(或更多个)因子水平不同的搭配(组合)对指标的影响;
或“一个因子的水平好坏或好坏程度受另一因子水平制约作用”;
或通俗说之为多个因子的联合作用。
有否一种试验设计方法既可减少试验次数又可获得较多信息?!有!有许多。其中“正交试验设计与分析”——可作为常用方法之一首选。
正交试验设计与分析”——
利用“正交表”——正交性”,选择试验条件,或布置试验点,亦或制定试验方案;同时作相应的试验结果或数据分析,从而找出最好或满意的试验条件,或最优水平组合(搭配)。
2.1-2 正交表及其特点与作用。
1 )常用正交表及其记号与含义。
其中n: 正交表所具有的行数。
一旦按这种正交表排定试验方案时,则它表明该试验方案要求作出n个试验。
p: 正交表所具有的列数。
一旦按这种正交表排定试验方案时,则它表明该试验方案至多可安排p个因子参与试验。
q: 正交表的每列中数码的种数,常称为其水平数。
在常用的正交表情形,n,p,q这三者有如下的关系与取值:
当在上右式中取“=”时,常称之为“饱和正交表”。
又其中水平数q,一般为“素(质)数” 或其幂, 如。
q=2:2水平表。
其中k可表明:
该种表所具有的“基本列”数,而p-k为其“导出列”(两两或更多的交互(作用)列)数。如。
其3列中的任2列为其个基本列,其余一列则为其导出(交互)列(以下类同)。
其7列中的任3列为其基本列,其余4列则为其导出列——3个两两交互列及1个高阶交互列。
其15列中的任4列为其基本列,其余11列则为其导出列——个两两交互列及个高阶交互列。
q=3:3水平表。
其4列中的任2列为其基本列,其余2列则为其导出列。
注:依上可知。
2个2水平列的交互列用表的某1列给出。
2个3水平列的交互列要用其2列给出。
依此类推,2个、…水平列,分别要用其、…列给出。
其13列中的任3列为其基本列,其余10列则为其导出列:
个(两两交互列及高阶交互列)。
……水平表:
还有另一类非饱和或其他一些特殊的正交表,如。
这后一类为混合水平表,等等。
再详见于pp.332-337, 附录2。
2)正交表在试验设计与分析中的作用。
正交表的正交性。
1) 表的每列中每种数码重复次数相同。
2) 表的任意两列的同行一切可能的数码对重复次数相同。
正交性体现在试验设计与分析中,使。
设计布点——均匀分散性。
若将一切可能试验条件(或参试因子的水平组合)组成的集合看成试验空间,则其任一试验条件即为该试验空间中的一个(试验)点,而因正交表的正交性,可使所选择的点在试验空间中的分布是均匀分散的。
如有3个因子a,b,c且各有2种水平,应用正交表(p332, 附录2),将a,b,c因子依次(依表的第1,2,3列)上列, 将其水平(1,2) 于各列中对号入座, 从而该表由其个全部试验点:
中选出的4个点:
就具有均匀分散性——如图示(待补)可见:
在该正六面体的试验空间上, 每个面都有2个点, 或在其每个棱上都有一个点。
或可参见p108, 图2.3-1——3个因子各3个水平,将其应用于正交表(p334, 附录2)的前3列的“因子依次上列、水平对号入座”情形。
分析计算——综合可比性。
可参见p109,“1. 数据的直观分析” 部分的内容叙述。
二)正交试验设计与分析。
2.2-1试验设计与分析的步骤。
先作一般归纳与适当说明)
1)试验设计。
1)明确试验目的。
依具体情形使之明确。
2)明确试验指标。
单指标情形——
第二章统计
2.1 随机抽样。2.1.1 简单随机抽样。1.下列调查中,属于简单随机抽样的是 a.2014年仁川亚运会志愿者的体检。b.袋装牛奶合格率调查。c.日本首相 晋三的支持率调查。d.汽车车站行李安检。2.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列...
第二章统计
一 知识点。1 一般地,从个体为n的总体中抽取容量为n的样本,如果每一次抽取时总体中的各个个体被抽到,这种抽样方法叫这样抽取的样本,叫做简单随机样本。2和都是简单随机抽样。3 三种抽样方法的比较 4 画频率分布布折线图的步骤。5 在直方图中纵坐标是小矩形的面积。6 平均数 方差 标准差公式。7 回归...
第二章统计
一 选择题。1 某校有40个班,每班有50人,每班选派3人参加 学代会 在这个问题中样本容量是 a 40b 50c 120d 150 2 要从已编号 1 50 的50枚最新研制的某型号导弹中随机抽取5枚来进行发射试验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5枚导弹的编号可能是 a 5,...