数学建模统计回归模型

第6组：潘光松，刘博，杜晶。

习题10-6

问题：某公司想用全行业的销售额作为自变量来**公司的销售量，表中给出了1977—2023年公司的销售额和行业销售额的分季度数据（单位：百万元）

1）画出数据的散点图，观察用线性回归模型拟合是否合适。

2）建立公司销售额对全行业的回归模型，并用dw检验诊断随机误差项的自相关性。

3）建立消除了随机误差项自相关性之后的回归模型。

分析与假设：

表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响，从而对后期的后期的销售额造成影响。因此在此模型中因考虑到出现自相关型时，建立新的回归模型。

记公司公司的销售额为y，全行业的销售额为x,利用x来建立y的**模型。

基本回归模型：

为了大致分析y和x的关系，首先利用表中的数据作出y对x关系作出散点图，如下（见图中的+））

做散点图：x=a(:,2); y=a(:,1); plot(x,y,'+

图一。从图一中可以看出，随着x的增加，y的值有比较明显的线性增长趋势，图中的直线是用线性模型，因此可建立一元线性回归模型。

y=β0+β1x1)

拟合的（其中ε是随机误差），这里假设ε（对t相互独立）且服从n(0, )

根据表中的数据，对模型（1）直接利用matlab统计工具箱求解、算法如下：

xx=[ones(20,1),x];

b,bint,r,rint,stats]=regress(y,xx);hold on;

yy=b(1)+b(1)*x;

plot(x,yy)

hold off;

得到的回归系数估计值及其置信区间（α=0.05），检验统计量r,f,p的结果如表1：

表1 模型（1）的计算结果。

将参数的估计值带入（1）中得到。

yy=-1.4548+0.1763*x2)

用matlab中的restool命令得到的交互式画面见图2，由此可以得出不同水平下的**值及其置信区间。通过左下方的export下拉式菜单。可以输出模型的统计结果。

rstool(x,y)

得出y1= 24..569+/-0.051307 当x=147.625时。

且通过export下拉菜单可得出beta 0=-1.4548，beta1=0.1763

rmse(剩余标准差)= 0.086056

图二。自相关性诊断与处理方法。

从表面上来看得到的基本模型（2）拟合度非常高，接近你100%，应该很满意了，但是这个模型并没有考虑到我们的数据是一个时间序列（将原表中的数据打乱不影响，模型（2）的结果）。实际上对于时间序列数据做回归分析时，模型的随机误差ε有可能存在相关性，违背模型关于ε（对时间t）相互独立的基本假设，其他相关因素对公司销售额的影响肯能也有时间上的延续，即误差ε会出现自相关性。

残差e=y-yy, yy 为估计值。

e可作为随机误差ε的估计值，画出e ～e的散点图，能够直观的判断ε的自相关性，模型（2）的残差可在计算过程中得到表2，以及数据e ～e的图见图3

做残差图：plot(x,r,'+

表2为了对ε的字相关性做定量的诊断，并在确诊后得到新的结果，我们考虑如下模型。

y=β0+β1x+ε，pε+u,其中p是自相关系数，|p|<=1,u相互独立且服从均值为0的正态分布，t=1,2,,,n;

若p=0，则退化为普通的回归模型；若p>0，则随机误差ε存在正的自相关；若p<0，则随机误差ε存在负的自相关。

利用d-w检验诊断自相关现象如下：

e=y-yy;ee=e(2:20,:)eee=e(1:19,:)

y0=sum((ee-eee).^2);

y1=sum(ee.^2);dw=y0/y1;p=1-0.5*dw;

算出。y0 = 0.0980y1 = 0.1326

dw = 0.7388p = 0.6306

因为dw≈2（1-p），所以 0≤dw≤4,若p的估计值在0附近，则dw的值在2附近，ε的自相关行很弱，若p在正负1附近，则dw接近0或4，ε的自相关性很强。

加入自相关后的模型。

利用表2给出的残差e,根据以上式子可得出dw=0.7388，对于显著性水平α=0.05，n=20,k=2,查d-w分布表，得到检验的临界值dl=1.

2和du=1.4.现在dw以p的估计值带入（3）和（4）做变换，利用变换后的数据y4,x4估计模型(5)的参数，得到的表见表3，还可以得出剩余标准差rmse=0.

08828.

y2=y(2:20,:)

y3=y(1:19,:)

x2=x(2:20,:)x3=x(1:19,:)

y4=y2-y3*p3）

x4=x2-x3*p （4）

yyy= y=β0+β1x+u, β0=β0(1-p) (5)

b1,bint1,r1,rint1,stats1]=regress(y4,[ones(19,1),x4]);

最后将模型（5）的变量还原为原始变量。得到的结果如下。

yyy=-0.3951+0.6306*y3+0.1738*x2-0.1096*x3;

表3结果极其**。

从机理上看，加入自相关的模型（5）更为合理。将原表中的数据和得到的两个新的模型进行比较，可以得到如下表。以及下图。

e1=yyyy-yyy;t=2:20;subplot(1,2,1);plot(y2,yyy,'+

hold on;yyyy=yy(2:20,:)plot(y2,yyyy,'o')

hold off;subplot(1,2,2);plot(t,ee,'+

hold on;plot(t,e1,'o')

数学建模统计回归模型

数学建模之统计回归模型

数学建模之统计回归模型

数学建模2统计模型

其他用户还读了