统计与数据挖掘实验。
学生姓名:学号:
学院:经济与管理学院。
指导老师:专业:
日期: 2016/1/19
数据挖掘。—回归分析。
一. 回归分析概述。
回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确把握变量受其他一个或多个变量影响的程度,进而为**提供科学依据。
二. 回归分析一般步骤。
1.确定回归方程中解释变量和被解释变量。
2.确定回归模型。
3.建立回归方程。
4.对回归方程进行各种检验。
5.利用回归方程进行**。
三. 回归分析例题。
为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响,收集某年31个省市自治区部分高校有关社科研究方面的数据,并利用线性回归分析方法进行分析。这里,被解释变量为立项课题总数,解释变量为投入总人数、投入高级职称的人数、投入科研事业费,专著数,**数、获奖数。
1.数据结构定义:
a 先在spss变量窗口对数据结构进行定义,并相应的定义标签定义结果如下。
b 紧接着在spss数据编辑窗口进行相应的数据录入。
共31组数据)
2.用spss进行回归分析。
a.选择菜单:分析-回归-线性。
b.选择观测变量到因变量列表和因子框中。控制变量有几个不同的取值就表示控制变量有几个水平。
c.分析结果如下。
由于该方程中有多个解释变量,因此,应参考调整系数的判定系数,为0.924,较接近1,因此,认为拟合优度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较少。
f检验统计量的观测值为61.532,对应的概率p值近似为0.小于显著性水平a,应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著地,可建立线性模型。
如果显著性水平a为0.05,除投入人数以外,其他变量的回归系数显著性t检验的概率p-值都大于显著性水平a,因此不应拒绝原假设,认为这些偏回归系数与0无显著差异,它们与被解释变量的线性关系是不显著的,不应该保留在方程中。由于该模型中保留了一些不应保留的变量,因此该模型目前是不可用的,应重新建模。
同时,从容忍度和方差膨胀因子看,投入高级职称的人数与其他解释变量的多重共线性很严重,在重新建模时可考虑剔除该变量。
依据该表可进行多重共线性检测。从方差比来看,第7个特征值既能解释投入人数方差的84%,也可解释投入高级职称的人数方差的98%,同时还可解释专著数方差的44%,因此有理由认为这些变量间存在多重共线性;从条件指数来看,第5,6,7个条件指数都大于10,说明变量间确实存在多重共线性。
回归分析作业
公管11 2111401025 潘烨烽。数据文件 资产评估1 提供了35家上市公司资产评估增值的数据。pg 资产评估增值率。gz 固定资产在总资产中所占比例。fz 权益与负债比。bc 总资产投资报酬率。gm 公司资产规模 亿元 a.建立关于资产评估增值率的四元线性回归方程,并通过统计分析 检验说明所...
回归分析作业
统计数据的描述。甲 乙两个班参加同一学科考试,甲班的平均考试成绩为86分,标准差为12分。乙班考试成绩的分布如下 要求 1 计算乙班考试成绩的均值及标准差 2 比较甲乙两个班哪个班考试成绩的离散程度大?一家产品销售公司在30个地区设有销售分公司。为研究产品销售量 y 与该公司的销售 x1 各地区的年...
回归分析作业
1 设单位产品的成本与产量间近似满足双曲线关系,试利用下列资料求对的回归方程。2 在大豆生长试验中,测定某大豆品种从第一复叶到开花期的生长率与温度的数据如下 试确定大豆生长率对温度的线性回归方程,并对回归方程进行检验。3 某种钢材的硬度与含铜量 及温度 之间服从线性关系,试从下面六组数据中求出经验回...