应用统计学作业

发布 2022-08-26 06:14:28 阅读 7666

为研究**肾细胞癌转移受哪些因素的影响,本文收集了某研究人员收集的一批行**性肾切除术患者的肾癌标本资料,并利用线性回归分析方法进行分析。

这里,被解释变量为肾细胞癌转移情况(y),解释变量为确诊时患者的年龄(x1) 、肾细胞癌血管内皮生长因子(x2)、肾细胞癌组织内微血管数(x3)、肾癌细胞核组织学分级(x4)、肾细胞癌分期(x5),结束变量筛选策略先采用强制进入策略(enter),并作多重共线性检测,分析结果如下:

上表中格列数据项的含义依次为:被解释变量和解释变量的复相关系数、判定系数r2、调整的判定系数2、回归方程的估计标准误差。由于调整的判定系数(0.

603)不是很接近于1,因此认为拟合优度不是很高,被解释变量可以被模型解释的部分较少,为能被解释的部分较多。

由上表可知,被解释变量的总离差平方和为5.885,回归平方和及均方分别为4.015和0.

803,剩余平方和及均方分别为1.869和0.093,f检验统计量的观测值为8.

591,对应的概率p近似为0.依据该表可进行回归方程显著性检验。如果显著性水平为0.

05,由于概率p值小于显著水平,应拒绝回归方程显著性检验的零假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可建立线性模型。

由上表可知,如果显著水平为0.05,除了肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(vegf)以外,其他变量的回归系数显著性t检验的概率p值都大于显著水平,因此不应拒绝原假设,认为这些偏回归系数与0无显著性差异,它们与被解释变量的线性关系不显著,不应保留在方程中。由于模型保留了一些不应保留的变量,因此该模型目前不可用,赢重新建模。

从容忍度和方差膨胀因子看,肾癌细胞核组织学分级与其他解释表里那个的多重共线性较严重,在重新建模时是可考虑剔除该变量。

依据上表可进行多重共线性检测。从方差比来看,第5个特征根既能解释肾癌细胞核组织学分级的89%也可以解释肾细胞癌血管内皮生长因子(vegf)的25%,同时还解释肾细胞癌分期的15%,因此有理由认为这些变量间确实存在多重共线性;从条件指数看,第5,6个条件指数都大于10,说明变量间确实存在多重共线性。

总之,通过上述分析指导上面的回归方程存在一些不容忽视的问题,应该重建回归方程。这里我采用向后筛选策略完成观测检验并进行残差分析和强影响点探测。

由上表知,利用向后筛选策略共经过四步完成回归方程的建立,最终模型为第四个模型。从方程的建立过程看,随着解释变量的不断减少方程的拟合优度下降了。依次剔除方程的变量是肾细胞癌分期、肾细胞癌组织内微血管数(mvc)、确诊时患者的年龄(岁)。

如果显著性水平为0.05,可以看到这些被剔除的变量的偏f检验的概率p值均大于显著水平,因此不能拒绝检验的零假设,这些变量的偏回谷啊系数与零无显著差异,他们对被解释变量的线性解释没有显著贡献,不应保留在方程中。最终保留在方程中的变量是肾癌细胞核组织学分级和肾细胞癌血管内皮生长因子(vegf)。

方程的dw值为2.154,残差存在一定程度的负自相关。

上表中的第四个模型是最终的方程。如果显著水平为0.05,由于回归方程显著性检验的概率p值小于显著性水平,因此被解释变量与解释变量间的线性关系显著,建立线性模型是恰当的。

应用统计学作业

p139 例3 7 表1 1 例3 7实测数据表。应用excel计算,数据处理表如表1 2所示 表1 2 数据预处理表一。由表可知 由此得 故回归方程为 还原变量得回归方程为 假设检验h0 b1 0.对给定的 0.01,查f 1,11 得临界值 9.65,由于f 检验效果显著,拒绝h0,即回归方程有...

应用统计学作业

题目 关于某公司474名职工综合状况的统计。分析报告。学院名称 管理学院 学生姓名 李伶 专业 人力资源管理 学号 20082020 指导教师姓名 罗晓娟 一 数据介绍 本次分析的数据为某公司474名职工状况统计表,其中共包含十一变量,分别是 id 职工编号 gender 性别 bdate 出生日期...

应用统计学作业

第一章影响各国诺贝尔三大科技奖获奖次数因素的多远回归分析 2 1前言 21.1研究背景 2 1.2感兴趣的地方 2 1.3问题变量描述 2 1.4数据收集 2 2 spss运算及分析 3 2.1相关性检验 3 2.2回归分析 4 2.3.由于相关性检验的影响单独对变量名校与世界五百强进行回归检验 5...