研究生“数理统计”大作业。
姓名: 学号:
专业: 土木工程
班级: 土木二班
回归分析在**中的应用。
摘要:早在十九世纪,英国生物学家兼统计学家高尔顿在研究父与子身高的遗传问题时,发现子代的平均高度又向中心回归大的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其他分支中。
随着计算机的发展,各种统计软件包的出现,回归分析的应用就越来越广泛。回归分析处理的是变量与变量间的关系。有时,回归函数不是自变量的线性函数,但通过变换可以将之化为线性函数,从而利用一元线性回归对其进行分析,这样的问题是非线性回归问题。
本文选了3个影响****指数的经济变量, 以原始数据为依据建立了异方差模型,通过多重共线性分析消除了异方差模型带来的问题,最终得出回归方程,经多种检验证实得出的回归方程可信。
关键词:回归分析, **,回归模型,模型检验。
一、问题提出,问题分析。
为了研究**的变化规律,建立回归方程,分析影响****趋势变动的因素。这里我们选了3个影响****指数的经济变量:x1是成交额(万$),x2是国际**金额(100万$),x3是美元汇率。
二、数据描述。
本例选择成交额x1来反映市场状况。y为**指数。本例采集了以上变量1996---2023年12年纳斯达克的数据资料,如表1所示。
表1 1996---2023年纳斯达克**指数。
三、模型建立。
这里我们选了3个影响****指数的经济变量:x1是成交额(万$),x2是国际**金额(100万$),x3是美元汇率。本例选择成交额x1来反映市场状况。y为**指数。
异方差问题分析:
1.异方差模型。
经典线性回归模型可以表示为,假设有n组观察,则原模型方程可表示为:。
在经典线性回归模型中,假设随机误差项是一个随机变量,且服从数学期望为零,方差为一常数的正态分布,即,这一假设称为随机误差项的同方差性假设。另外还假设不同观察值的随机误差项之间是不相关的,而且随机误差项与项不趋于共同变化。但在实际的经济问题中,上述假设不一定满足。
比如,当自变量变化较大时(如在一些横截面数据中),的方差可能随的变化而变化;而当和之间存在一定的顺序关系时(如在时间序列中),可能与并不独立(ji)。
当同方差(homosce dasticity)或等方差(equal variance)性假定不满足,也就是说,随机误差项的方差不等于一个常数,即则称随机误差项具有异方差(heteroscedasticity)或非同方差(unequal variance)性。在模型(1-3)中,除随机误差项具有异方差性外,其它基本假设都能满足,则称这种模型为异方差的线性回归模型,简称异方差模型。
2 异方差性的后果。
变量的显著性检验失去意义,在多元线性回归模型的显著性检验中,构造了t 统计量,在该统计量中包含有随机误差项共同的方差,并且有t 统计量服从自由度为( n - k - 1) 的t 分布。 如果出现了异方差性, t 检验就失去意义。 采用其它检验也是如此。
模型的**失效,一方面,由于上述后果,使得模型不具有良好的统计性质;另一方面,在**值的置信区间中也包含有随机误差项共同的方差, 所以当模型出现异方差性时,它的**功能失效。
3异方差性检验。
1)残差图分析法。
残差图分析法是一种直观、方便的分析法,它以残差e为纵坐标,以任何其他的量为横坐标画散点图。常用的横坐标有有三种选择:以拟合值为横坐标;以xi为横坐标,i=1,2………p;以观察时间或序号为横坐标。
一般情况下,当回归模型满足所有假设时,残差图上的n个点的散布会应是随机的,无任何规律的。如果回归模型存在异方差,残差图上的点的散步会呈现相应的趋势。
2)等级相关系数法。
等级相关系数检验法又称斯皮尔曼(spearman)检验,是一种应用较广泛的方法。这种检验法既可用于大样本,又可用于小样本。
3)格莱斯尔(glejser)检验。
格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的,是自变量的函数,它随j值的增减而变化。进行格莱斯尔检验主要有两个步骤:
1)以所有解释变量xi来解释被解释量y,估计其参数,计算出随机项的估计值e。
2)以e为被解释变量,以某个解释变量xi为解释变量,建立如下方程:
以xi的不同幂次的形式f(xi),分别估计两个参数,选择最佳的拟合形式,并对它们的显著性进行检验。如果它们显著性不为0,则认为异方差性存在,因为随机项与xi存在相关性。否则就具有同方差性。
4 异方差性问题的处理方法。
当研究的问题存在异方差性时,就违背了线性回归模型的假设。此时,就不能用普通最小二乘法进行参数估计,必须寻求适当的补救方法,对原来的模型进行变换,使变换后的模型满足同方差性假设,然后进行模型参数的估计,就可到理想的回归模型。消除异方差性的方法通常有加权最小二乘法(weighted least square)、box-cox变换法、方差稳定性变换法。
在spss软件中提供了加权最小二乘法。
多重共线性分析:
在多元线性回归模型的基本假设中,假定解释变量之间不存在密切的线性关系。如果存在,则称它们存在多重共线性(multi-collinearity)。
1)多重共线性带来的问题。
当回归模型存在多重共线性时,有rk(x)(2)多重共线性的诊断。
本文介绍三种诊断方法。
1)判定系数法。
设有p个自变量的回归模型为:y=f(x1,x2,……xp),为了诊断多重共线性,使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程:
x1=f(x2,x3,……xp);
x2=f(x1,x2,…xp);
xj=f(x1,x2,….xj-1,xj+1,…xp);
xp=f(x1,x1,….xp)
对上述p个方程进行参数估计,并计算样本决定系数。若这些决定系数中的最大者接近1,比如说,则说明该变量xj可以用其他解释变量线性表示,则存在多重共线性。并且还同时找出了多重共线性的表达式。
这种方法比较适合于解释变量少的模型。这种方法可以在spss软件上完成。
2)条件数。
被称为方差的条件数(condition number).利用条件数可以度量的特征根散布程度,可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为01000,则认为存在严重的多重共线性。
在spss软件中没有该方法。
3)方差扩大因子。
设为xj对其余p-1个变量的复相关系数,则被称为方差扩大因子(variance inflation factor,简记为vif)。如果记的方差仅差一个因子,是由两个因子和构成,且与olse的方差仅差一个因子。因为度量了自变量xj与其余p-1个自变量的线性依赖度,这种相关程度越强,说明自变量之间的多重共线性越严重,就越接近1,vifj也就越大。
反之则相反。由此可见vif的大小反映了自变量之间是否存在多重共线性,由此可由它来度量多重共线性的严重程度。经验表明,当vif>10时,就说明自变量间有严重的多重共线性,且这种共线性可能会过度地影响最小二乘估计值。
以上三种方法都是诊断共线性是否存在的专门方法,相对这几种方法,还有一些在建模过程中能顺便主观判断的非正规方法。
3)消除多重共线性的方法。
当通过某种检验,发现解释变量中存在严重的多重共线性时,就要设法消除这种共线性。消除这种共线性的方法很多,常用的有下面几种。
1)剔除一些不重要的解释变量。通常在经济问题的建模中,由于人们认识水平的局限,容易考虑更多的自变量。当涉及自变量较多时,大多数回归方程都受到多重共线性的影响。
这时,最常用的办法就是舍去一些与y相关程度低、而与其他自变量高度相关的变量,然后重新建立回归方程。
2)最大样本容量。建立一个实际经济问题的回归模型,如果所收集的样本数据太少,也容易产生多重共线性。这时可以通过增加样本容量来减弱多重共线性的程度。
3)改变变量定义形式。对于样本数据是时间序列资料时,回归方程存在的多重共线性,我们可以重新定义变量的形式,差分法就是改变变量定义形式的一种方法。
4)利用已知信息。即利用一些先验信息组合某些变量。例如模型中的两个参数b1和b2满足关系:
b1=5b2,这时可将这个等式代入到原模型中,把模型的变量综合到一起,再利用最小二乘法进行估计。
5)回归系数的有偏估计。这种方法提出以引人偏误为代价来提高估计量稳定性的方差,如岭回法、主成分法、偏最小二乘法等。
6)将截面数据与时序相结合。
7)采用新的样本数据。在数据中重新抽取一个样本,有可能会减弱其中变量的多重共线性,因为数据样本的变化,往往会对方程的回归系数及其标准误差产生影响。
这些消除多重共线性的方法都可以在spss软件中间接完成。
四、计算方法设计和计算机实现。
1 对变量引入/剔除方式信息表的分析。
通过逐步回归产生的三种模型,模型1的自变量只有x3,模型2的自变量有x3和x1,模型3的自变量有x2、x3和x1。表2显示变量的引入和剔除,以及引入或剔除的标准。逐步回归方法最先引入变量x3,建立模型1。
接着引入变量x1,没有变量被剔除,建立模型2。最后引入x2,没有变量被剔除,建立模型3。
研究生数理统计作业
问题 研究中国31个省份2012年与2013年gdp的线性关系。变量选取 选取2012年各省gdp值为自变量x,2013年各省gdp值为因变量y。数据样本 这里分析的数据为中国各省份2012年 2013年gdp 亿元 值变化情况的数学关系。表1 中国各省份2012年 2013年gdp 亿元 值。数据...
研究生应用数理统计试题 2019
一填空题 36分,每空3分 1设是体,则exdx 2 设统计量,则。3 设是总体的一个样本,为的无偏估计,则d 4 设,为观测数据,分别为的无偏估计,则dd 5 某问题是一个四因素二水平试验,考虑交互作用ab。极差分析结果如下表 设指标越大越好 表1 极差分析数据表。则 1 各因素及交互作用的主次依...
应用数理统计大作业
一 非参数假设检验。数据来自 2009中国卫生统计年鉴 8 1 2各地区人口出生率和死亡率。检验假设h 北京市的人口出生率服从正态分布。由上表可知,假设不成立,即北京市的人口出生率不符合正态分布,应用同种方法可以得到北京市的人口死亡率同样不符合正态分布。二 多元线性回归分析。改革开放以来,我国城乡居...