第6组:潘光松,刘博,杜晶。
习题10-6
问题:某公司想用全行业的销售额作为自变量来**公司的销售量,表中给出了1977—2023年公司的销售额和行业销售额的分季度数据(单位:百万元)
1) 画出数据的散点图,观察用线性回归模型拟合是否合适。
2) 建立公司销售额对全行业的回归模型,并用dw检验诊断随机误差项的自相关性。
3) 建立消除了随机误差项自相关性之后的回归模型。
分析与假设:
表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响,从而对后期的后期的销售额造成影响。因此在此模型中因考虑到出现自相关型时,建立新的回归模型。
记公司公司的销售额为y,全行业的销售额为x,利用x来建立y的**模型。
基本回归模型:
为了大致分析y和x的关系,首先利用表中的数据作出y对x关系作出散点图,如下(见图中的+))
做散点图:x=a(:,2); y=a(:,1); plot(x,y,'+
图一。从图一中可以看出,随着x的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型,因此可建立一元线性回归模型。
y=β0+β1x1)
拟合的(其中ε是随机误差),这里假设ε(对t相互独立)且服从n(0, )
根据表中的数据,对模型(1)直接利用matlab统计工具箱求解、算法如下:
xx=[ones(20,1),x];
b,bint,r,rint,stats]=regress(y,xx);hold on;
yy=b(1)+b(1)*x;
plot(x,yy)
hold off;
得到的回归系数估计值及其置信区间(α=0.05),检验统计量r,f,p的结果如表1:
表1 模型(1)的计算结果。
将参数的估计值带入(1)中得到。
yy=-1.4548+0.1763*x2)
用matlab中的restool命令得到的交互式画面见图2,由此可以得出不同水平下的**值及其置信区间。通过左下方的export下拉式菜单。可以输出模型的统计结果。
rstool(x,y)
得出y1= 24..569+/-0.051307 当x=147.625时。
且通过export下拉菜单可得出beta 0=-1.4548,beta1=0.1763
rmse(剩余标准差)= 0.086056
图二。自相关性诊断与处理方法。
从表面上来看得到的基本模型(2)拟合度非常高,接近你100%,应该很满意了,但是这个模型并没有考虑到我们的数据是一个时间序列(将原表中的数据打乱不影响,模型(2)的结果)。实际上对于时间序列数据做回归分析时,模型的随机误差ε有可能存在相关性,违背模型关于ε(对时间t)相互独立的基本假设,其他相关因素对公司销售额的影响肯能也有时间上的延续,即误差ε会出现自相关性。
残差e=y-yy, yy 为估计值。
e可作为随机误差ε的估计值,画出e ~e的散点图,能够直观的判断ε的自相关性,模型(2)的残差可在计算过程中得到表2,以及数据e ~e的图见图3
做残差图:plot(x,r,'+
表2为了对ε的字相关性做定量的诊断,并在确诊后得到新的结果,我们考虑如下模型。
y=β0+β1x+ε,pε+u,其中p是自相关系数,|p|<=1,u相互独立且服从均值为0的正态分布,t=1,2,,,n;
若p=0,则退化为普通的回归模型;若p>0,则随机误差ε存在正的自相关;若p<0,则随机误差ε存在负的自相关。
利用d-w检验诊断自相关现象如下:
e=y-yy;ee=e(2:20,:)eee=e(1:19,:)
y0=sum((ee-eee).^2);
y1=sum(ee.^2);dw=y0/y1;p=1-0.5*dw;
算出。y0 = 0.0980y1 = 0.1326
dw = 0.7388p = 0.6306
因为dw≈2(1-p),所以 0≤dw≤4,若p的估计值在0附近,则dw的值在2附近,ε的自相关行很弱,若p在正负1附近,则dw接近0或4,ε的自相关性很强。
加入自相关后的模型。
利用表2给出的残差e,根据以上式子可得出dw=0.7388,对于显著性水平α=0.05,n=20,k=2,查d-w分布表,得到检验的临界值dl=1.
2和du=1.4.现在dw以p的估计值带入(3)和(4)做变换,利用变换后的数据y4,x4估计模型(5)的参数,得到的表见表3,还可以得出剩余标准差rmse=0.
08828.
y2=y(2:20,:)
y3=y(1:19,:)
x2=x(2:20,:)x3=x(1:19,:)
y4=y2-y3*p3)
x4=x2-x3*p (4)
yyy= y=β0+β1x+u, β0=β0(1-p) (5)
b1,bint1,r1,rint1,stats1]=regress(y4,[ones(19,1),x4]);
最后将模型(5)的变量还原为原始变量。得到的结果如下。
yyy=-0.3951+0.6306*y3+0.1738*x2-0.1096*x3;
表3结果极其**。
从机理上看,加入自相关的模型(5)更为合理。将原表中的数据和得到的两个新的模型进行比较,可以得到如下表。以及下图。
e1=yyyy-yyy;t=2:20;subplot(1,2,1);plot(y2,yyy,'+
hold on;yyyy=yy(2:20,:)plot(y2,yyyy,'o')
hold off;subplot(1,2,2);plot(t,ee,'+
hold on;plot(t,e1,'o')
数学建模之统计回归模型
数学建模大作业。统计回归模型。摘要。某公司想用全行业的销售额作为自变量来 公司的销售额,题目给出了1977 1981此公司的销售额和行业销售额的分季度数据 通过对所给数据的简单分析,我们可以看出 此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而...
数学建模之统计回归模型
数学建模大作业。统计回归模型。摘要。某公司想用全行业的销售额作为自变量来 公司的销售额,题目给出了1977 1981此公司的销售额和行业销售额的分季度数据 通过对所给数据的简单分析,我们可以看出 此公司的销售额有随着行业销售额的增加而增加的趋势,为了更加精确的分析题目所给的数据,得出科学的结论,从而...
数学建模2统计模型
数学建模。题目 一个医药公司的新药研究部门为了掌握一种新止痛剂的疗效,设计了一个药物试验,给患有同种疾病的病人使用这种新止痛剂的以下4个剂量中的某一个 2 g,5 g,7 g和10 g,并记录每个病人病痛明显减轻的时间 以分钟计 为了解新药的疗效与病人性别和血压有什么关系,试验过程中研究人员把病人按...