回归分析。
教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过**使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
一.复习引入。
回归分析中涉及哪些相关概念?
复习1:函数关系是一种关系,而相关关系是一种关系。
复习2:回归分析是对具有关系的两个变量进行统计分析的一种常用方法,其步骤。
复习3:对于一组具有线性相关关系的数据:
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为:
其中,()成为样本点的中心。
注:回归直线过样本中心。为什么?
(推导过程不要求)
回归分析的基本步骤:
1) 画出两个变量的散点图。
2) 求回归直线方程。
3) 用回归直线方程进行预报。
二.回归分析的基本应用。
1.题型一。回归分析的基本应用。
例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表
求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重.
解:由于问题中要求根据身高预报体重,因此选取身高为自变量 x ,体重为因变量 y .
作散点图(图3 . 1 一 1)
从图3. 1一1 中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系.
根据**中的公式(1)和(2 ) 可以得到。 于是得到回归方程。
因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为。
( kg )
是斜率的估计值,说明身高 x 每增加1个单位时,体重y就增加0.849 位,这表明体重与身高具有正的线性相关关系.
2.相关系数。
虽然计算出回归直线,如何描述它们之间线性相关关系的强弱?
在必修 3 中,我们介绍了用相关系数;来衡量两个变量之间线性相关关系的方法.本相关系数的具体计算公式为。
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近1,表明两个变量的线性相关性越强;
r的绝对值接近于0时,表明两个变量之间几乎不存**性相关关系.
通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系.
在本例中,可以计算出r =0. 798.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的.
a变式1某产品的广告费用x与销售额y的统计数据如下表:
根据上表可得回归方程=x+中的约等于9,据此模型预报广告费用为6万元时,销售额为( )
a.63.5万元 b.64.5万元。
c.65.5万元 d.66.0万元。
a变式2已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( )
a. 变式3已知直线回归方程为,则变量增加一个单位时( )
a. 平均增加个单位 b. 平均增加个单位c. 平均减少个单位 d. 平均减少个单位。
a变式训练4:
某班5名学生的数学和物理成绩如下表:
1)画出散点图;
2)求物理成绩y对数学成绩x的回归直线方程;
3)一名学生的数学成绩是96,试**他的物理成绩.
思路点拨】 先画散点图,分析物理与数学成绩是否有线性相关关系,若相关再利用线性回归模型求解预报变量.
解】 (1)散点图如图:
iyi=88×78+76×65+73×71+66×64+63×61=25054.
所以==≈0.625.
所以y对x的回归直线方程是=0.625x+22.05.
3)x=96,则即可以**他的物理成绩约是___
问题: 1.身高为172cm的女大学生,体重一定是上述预报值吗?
2. **出的体重与实际不一致,那么它还有参考价值吗?
三、随机误差解释变量与预报变量残差相关指数。
1、随机误差。
由于所有的样本点不共线,而只是散布在某一条直线的附近,所以身高和体重的关系可用下面的线性回归模型来表示:
这里 a 和 b 为模型的未知参数,e是 y 与之间的误差.通常e为随机变量,称为随机误差,这样线性回归模型的完整表达式为:
思考: e怎样,预报真实值y的精度越高?当残差变量恒等于0时,线性回归模型就变成什么形式?
产生随机误差项e的原因是什么?
1存在观测误差.
2用的确定性函数不恰当引起的误差;
3.忽略了其他因素的影响;
2. 解释变量与预报变量。
思考 y是由x唯一决定的吗?
自变量x只能解释部分y的变化。我们把自变量x称作解释变量,因变量y称作预报变量。
吸烟与患癌症之间谁是解释变量,谁是预报变量。?
根据数学成绩预报物理成绩,谁是解释变量,谁是预报变量?
3、残差、残差分析、残差图。
e是一个不可观测的量,那么应该怎样研究随机误差呢?
残差其估计值为,称为相对应点的残差 。(实际值-估计值)
思考 :残差与准确度什么关系呢?
残差分析:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据(存在观测误差)
残差图:以残差为纵坐标,以样本编号,或身高数据,或体重估计值等为横坐标,作出的图形称为残差图。
思考:残差图越怎样才说明模型拟合越准确?
观察残差图,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型(用的确定性函数不恰当引起的误差)比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高。
残差的应用.
表3一 2 列出了女大学生身高和体重的原始数据以及相应的残差数据.
从图3 . 1 一 3 中可以看出,第 1 个样本点和第 6 个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误.如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因.
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适。这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.
4.相关指数。
另外,我们还可以用相关指数来刻画回归的效果,其计算公式是:
问题:越大越好还是越小越好?
显然,取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好.
**性回归模型中,表示解释变量对于预报变量变化的贡献率.越接近于1,表示回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强).
如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个,选择大的模型作为这组数据的模型.
在例 1 中, =0. 64 ,表明“女大学生的身高解释了64 %的体重变化”,或者说“女大学生的体重差异有 64 %是由身高引起的”.
概念辨析 . 两个变量与的回归模型中,通常用来刻画回归的效果,则正确的叙述是。
a. 越小,残差平方和小 b. 越大,残差平方和大
c. 于残差平方和无关 d. 越小,残差平方和大
四.回归分析的完整步骤。
一般地,建立回归模型的基本步骤为:
1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存**性关系等) ;
3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 y=bx+a )
4)按一定规则估计回归方程中的参数(如最小二乘法);
5)得出结果后分析是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等.
注意用身高预报体重时,需要注意下列问题:
1.回归方程只适用于我们所研究的样本的总体.例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系.同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系.
2.我们所建立的回归方程一般都有时间性.例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系.
3.样本取值的范围会影响回归方程的适用范围.例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量 x 的样本的取值范围为[155cm,170cm〕 ,而用这个方程计算 x-70cm 时的y值,显然不合适.)
1 1回归分析的基本思想及其初步应用 二
三元整合导学模式高二年级数学学科导学稿 学生版 主编人 备课组长 学校审批领导 协编人 高二数学备课组课时 2课时定稿日期 2014年2月9日。课题 1.1回归分析的基本思想及其初步应用 二。学习目标 1.通过典型案例的 进一步了解回归分析的基本思想 方法及初步应用 2.通过 使学生体会有些非线性模...
1回归分析的基本思想及其初步应用
新课标数学选修1 2 1 1回归分析的基本思想及其初步应用。教师用书独具 三维目标。1 知识与技能。通过典型案例的 了解回归分析的基本思想,会对两个变量进行回归分析,明确解决回归模型的基本步骤,并对具体问题进行回归分析以解决实际应用问题 了解最小二乘法的推导,解释残差变量的含义,了解偏差平方和分解的...
1 1回归分析的基本思想及其初步应用
1.1.1回归分析的基本思想及其初步应用。主备 霍海伟主审 王伟。重点 1 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤 了解线性回归模型与函数模型的区别 2 尝试做散点图,求回归直线方程 一 基础知识梳理。回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个...