研究生数理统计大作业

研究生“数理统计”大作业。

姓名：学号：

专业：土木工程

班级：土木二班

回归分析在**中的应用。

摘要：早在十九世纪，英国生物学家兼统计学家高尔顿在研究父与子身高的遗传问题时，发现子代的平均高度又向中心回归大的意思，使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其他分支中。

随着计算机的发展，各种统计软件包的出现，回归分析的应用就越来越广泛。回归分析处理的是变量与变量间的关系。有时，回归函数不是自变量的线性函数，但通过变换可以将之化为线性函数，从而利用一元线性回归对其进行分析，这样的问题是非线性回归问题。

本文选了3个影响****指数的经济变量，以原始数据为依据建立了异方差模型，通过多重共线性分析消除了异方差模型带来的问题，最终得出回归方程，经多种检验证实得出的回归方程可信。

关键词：回归分析， **，回归模型，模型检验。

一、问题提出，问题分析。

为了研究**的变化规律，建立回归方程，分析影响****趋势变动的因素。这里我们选了3个影响****指数的经济变量：x1是成交额(万$)，x2是国际**金额（100万$），x3是美元汇率。

二、数据描述。

本例选择成交额x1来反映市场状况。y为**指数。本例采集了以上变量1996---2023年12年纳斯达克的数据资料，如表1所示。

表1 1996---2023年纳斯达克**指数。

三、模型建立。

这里我们选了3个影响****指数的经济变量：x1是成交额(万$)，x2是国际**金额（100万$），x3是美元汇率。本例选择成交额x1来反映市场状况。y为**指数。

异方差问题分析：

1.异方差模型。

经典线性回归模型可以表示为，假设有n组观察，则原模型方程可表示为：。

在经典线性回归模型中，假设随机误差项是一个随机变量，且服从数学期望为零，方差为一常数的正态分布，即，这一假设称为随机误差项的同方差性假设。另外还假设不同观察值的随机误差项之间是不相关的，而且随机误差项与项不趋于共同变化。但在实际的经济问题中，上述假设不一定满足。

比如，当自变量变化较大时（如在一些横截面数据中），的方差可能随的变化而变化；而当和之间存在一定的顺序关系时（如在时间序列中），可能与并不独立（ji）。

当同方差（homosce dasticity）或等方差（equal variance）性假定不满足，也就是说，随机误差项的方差不等于一个常数，即则称随机误差项具有异方差（heteroscedasticity）或非同方差（unequal variance）性。在模型（1-3）中，除随机误差项具有异方差性外，其它基本假设都能满足，则称这种模型为异方差的线性回归模型，简称异方差模型。

2 异方差性的后果。

变量的显著性检验失去意义，在多元线性回归模型的显著性检验中，构造了t 统计量，在该统计量中包含有随机误差项共同的方差，并且有t 统计量服从自由度为( n - k - 1) 的t 分布。如果出现了异方差性， t 检验就失去意义。采用其它检验也是如此。

模型的**失效，一方面，由于上述后果，使得模型不具有良好的统计性质；另一方面，在**值的置信区间中也包含有随机误差项共同的方差，所以当模型出现异方差性时，它的**功能失效。

3异方差性检验。

1)残差图分析法。

残差图分析法是一种直观、方便的分析法，它以残差e为纵坐标，以任何其他的量为横坐标画散点图。常用的横坐标有有三种选择：以拟合值为横坐标；以xi为横坐标，i=1,2………p;以观察时间或序号为横坐标。

一般情况下，当回归模型满足所有假设时，残差图上的n个点的散布会应是随机的，无任何规律的。如果回归模型存在异方差，残差图上的点的散步会呈现相应的趋势。

2）等级相关系数法。

等级相关系数检验法又称斯皮尔曼（spearman）检验，是一种应用较广泛的方法。这种检验法既可用于大样本，又可用于小样本。

3）格莱斯尔（glejser）检验。

格莱斯尔检验的中心思想是随机项的估计值e与自变量是有关系的，是自变量的函数，它随j值的增减而变化。进行格莱斯尔检验主要有两个步骤：

1）以所有解释变量xi来解释被解释量y，估计其参数，计算出随机项的估计值e。

2）以e为被解释变量，以某个解释变量xi为解释变量，建立如下方程：

以xi的不同幂次的形式f(xi),分别估计两个参数，选择最佳的拟合形式，并对它们的显著性进行检验。如果它们显著性不为0，则认为异方差性存在，因为随机项与xi存在相关性。否则就具有同方差性。

4 异方差性问题的处理方法。

当研究的问题存在异方差性时，就违背了线性回归模型的假设。此时，就不能用普通最小二乘法进行参数估计，必须寻求适当的补救方法，对原来的模型进行变换，使变换后的模型满足同方差性假设，然后进行模型参数的估计，就可到理想的回归模型。消除异方差性的方法通常有加权最小二乘法（weighted least square）、box-cox变换法、方差稳定性变换法。

在spss软件中提供了加权最小二乘法。

多重共线性分析：

在多元线性回归模型的基本假设中，假定解释变量之间不存在密切的线性关系。如果存在，则称它们存在多重共线性（multi-collinearity）。

1）多重共线性带来的问题。

当回归模型存在多重共线性时，有rk(x)（2）多重共线性的诊断。

本文介绍三种诊断方法。

1）判定系数法。

设有p个自变量的回归模型为：y=f(x1,x2,……xp)，为了诊断多重共线性，使模型中每一个解释变量分别为其余解释变量作为解释变量构造p个回归方程：

x1=f(x2,x3,……xp);

x2=f(x1,x2,…xp);

xj=f(x1,x2,….xj-1,xj+1,…xp);

xp=f(x1,x1,….xp)

对上述p个方程进行参数估计，并计算样本决定系数。若这些决定系数中的最大者接近1，比如说，则说明该变量xj可以用其他解释变量线性表示，则存在多重共线性。并且还同时找出了多重共线性的表达式。

这种方法比较适合于解释变量少的模型。这种方法可以在spss软件上完成。

2）条件数。

被称为方差的条件数（condition number）.利用条件数可以度量的特征根散布程度，可以用它来判断多重共线性是否存在以及多重共线性的严重程度。通常认为01000,则认为存在严重的多重共线性。

在spss软件中没有该方法。

3）方差扩大因子。

设为xj对其余p-1个变量的复相关系数，则被称为方差扩大因子（variance inflation factor,简记为vif）。如果记的方差仅差一个因子，是由两个因子和构成，且与olse的方差仅差一个因子。因为度量了自变量xj与其余p-1个自变量的线性依赖度，这种相关程度越强，说明自变量之间的多重共线性越严重，就越接近1，vifj也就越大。

反之则相反。由此可见vif的大小反映了自变量之间是否存在多重共线性，由此可由它来度量多重共线性的严重程度。经验表明，当vif>10时，就说明自变量间有严重的多重共线性，且这种共线性可能会过度地影响最小二乘估计值。

以上三种方法都是诊断共线性是否存在的专门方法，相对这几种方法，还有一些在建模过程中能顺便主观判断的非正规方法。

3）消除多重共线性的方法。

当通过某种检验，发现解释变量中存在严重的多重共线性时，就要设法消除这种共线性。消除这种共线性的方法很多，常用的有下面几种。

1）剔除一些不重要的解释变量。通常在经济问题的建模中，由于人们认识水平的局限，容易考虑更多的自变量。当涉及自变量较多时，大多数回归方程都受到多重共线性的影响。

这时，最常用的办法就是舍去一些与y相关程度低、而与其他自变量高度相关的变量，然后重新建立回归方程。

2）最大样本容量。建立一个实际经济问题的回归模型，如果所收集的样本数据太少，也容易产生多重共线性。这时可以通过增加样本容量来减弱多重共线性的程度。

3）改变变量定义形式。对于样本数据是时间序列资料时，回归方程存在的多重共线性，我们可以重新定义变量的形式，差分法就是改变变量定义形式的一种方法。

4）利用已知信息。即利用一些先验信息组合某些变量。例如模型中的两个参数b1和b2满足关系：

b1=5b2，这时可将这个等式代入到原模型中，把模型的变量综合到一起，再利用最小二乘法进行估计。

5）回归系数的有偏估计。这种方法提出以引人偏误为代价来提高估计量稳定性的方差，如岭回法、主成分法、偏最小二乘法等。

6）将截面数据与时序相结合。

7）采用新的样本数据。在数据中重新抽取一个样本，有可能会减弱其中变量的多重共线性，因为数据样本的变化，往往会对方程的回归系数及其标准误差产生影响。

这些消除多重共线性的方法都可以在spss软件中间接完成。

四、计算方法设计和计算机实现。

1 对变量引入/剔除方式信息表的分析。

通过逐步回归产生的三种模型，模型1的自变量只有x3，模型2的自变量有x3和x1，模型3的自变量有x2、x3和x1。表2显示变量的引入和剔除，以及引入或剔除的标准。逐步回归方法最先引入变量x3，建立模型1。

接着引入变量x1，没有变量被剔除，建立模型2。最后引入x2，没有变量被剔除，建立模型3。

研究生数理统计大作业

研究生数理统计作业

研究生应用数理统计试题 2019

应用数理统计大作业

其他用户还读了