北航2019聚类分析大作业

发布 2022-09-10 10:57:28 阅读 3254

应用数理统计。

第二次课程**。

学号: 姓名。

2023年11月。

目录。我国各省市城镇居民消费水平的聚类分析和判别分析 1

摘要 11.引言 2

1.1 研究背景 2

1.2 内容、方法和结论 2

2 解决问题的方法和计算结果 3

2.1 数据说明 3

2.2 聚类分析 3

2.3 判别分析 9

3讨论与总结 12

参考文献 13

为了研究中国各地区城镇居民消费水平的差距,本文选取中国27个省(直辖市、自治区)的城镇居民家庭平均每人生活消费支出作为研究对象,针对食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健等七个方面的人均消费支出的具体数据,利用spss软件进行了聚类分析和判别分析。

使用快速聚类分析得到的结果是:选取的27各地区城镇消费水平可以分为3类,高水平区(一共3个)、中等水平区(一共7个)和低水平区(一共17个)。对比2023年中国各省市人均gdp排名的情况,分类结果在直观上看具有可信性。

对聚类分析的结果,利用逐步判别分析进行判别。未知类别的4个地区,1个被分为第2类(高水平),1个被分为第1类(中等水平),2个被分为第3类(低水平)。由此可知,本文选取的判别方法具有理想的历史回报率和良好的处理**能力。

关键字:城镇居民消费支出快速聚类分析逐步判别分析回报率。

自改革开放以来,我国经济得到了突飞猛进的发展,城市建设异常迅速,城镇化的速度也在逐渐增长。城镇居民人口的狂飙式增加,将会不可避免的带来一些问题。这些问题对于城市居民的生活会有什么样的影响,居民的生活质量与以前相比是提高了还是下降,城市化的道路到底是利大于弊还是弊大于利,不同发展水平城市的居民生活又有什么差距。

中西部省份存在着相当大的不均衡,通过对不同省份城镇居民消费情况的对比,对不同地区和省份的消费水平进行合理的分类和分析,具有较大的现实意义。

根据《中国统计年鉴2011》中的数据,本文选取中国27个省市的城镇居民家庭平均每人生活消费支出(食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健)作为研究对象,利用spss软件进行了聚类分析和判别分析。

聚类选择的是k-means快速聚类分析法,判别使用的是逐步判别分析方法。

选取的27个地区农民消费水平可以分为3类,高水平区、中等水平区和低水平区。对比2023年中国各省市城镇居民人均gdp排名的情况,分类结果在直观上具有可信性。逐步判别分析得到结果:

未知类别的4个地区,1个被分为第2类(高水平),1个被分为第1类(中等水平),2个被分为第3类(低水平)。由此可知,本文选取的判别方法具有理想的历史回报率和良好的处理**能力。

根据《中国统计年鉴2011》中的数据,选取全国31个省、市、自治区(27个作为初始案例,另外4个作为未知案例)2023年的城镇居民消费支出的6个指标的数据资料,进行聚类分析、判别分析,确定各地区城镇居民消费的类型。这7个指标依次为食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健。数据分析之前进行标准化,目的是消除各变量间由于量纲不同或数量级单位不同导致距离或相似系数的计算结果有较大的偏差,难以进行客观分析。

快速聚类是一类聚类方法的统称,其特点是:在在确定类别数量基础上,想给定一个粗糙的初始分类,然后按照某种原则进行反复修改。直至分类较为合理。

在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是k-means 算法。

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。

k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

首先将收集的数据导入spss软件中,如图所示。

导入数据一览。

导入数据之后,选择“分析→分类→k-均值聚类”,执行k均值快速聚类过程,主界面如图所示,在此指定分析变量、模型方法、初始类中心等参数。本文一共选取了食品、衣着、居住、家庭设备、交通和通讯、文教娱乐用品和医疗保健七个方面的人均消费支出(单位:元)作为聚类变量。

聚类数设为3。

1) 初始聚类中心。

2) 迭代历史记录。

3) 每个观测值的聚类及其距离。

4) 最终聚类中心。

由以上结果我们显然可以看到,根据快速聚类分析法,城镇居民生活支出被分为三个区域,其中2类为高水平区,1类为中水平区,3类为低水平区。

由具体的省份所属分类来看,北京(1号)、上海(9号)、浙江(11号)为2类(高水平区);天津(2号)、辽宁(6号)、江苏(10号)、福建(13)号、海南(19号)、重庆(20号)和四川(21号)被分入1类(中水平区);其余的17个省区则被分入3类(低水平区)。

由上图的2023年我国各省市地区人均gdp排名可以看到,聚类分析的结果客观上是符合直观判断的,,浙江地处沿海,与上海这个亚洲金融中心毗邻,在消费资源和理念上会比较倾向于高消费。

逐步判别法的基本思想是:逐步引入变量,每次引入一个“最重要”的变量,同时也检验先前引入的变量,如果先前引入的变量其判别能力随新引入变量而变不显著,则及时将其从判别式中剔除,直到判别式中的变量都很显著,且剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。其实逐步判别和逐步回归的思想差不多,就是不断的对筛选的变量作检验,找出显著性变量,剔除不显著变量。

前面的聚类分析中我们已经将全国27个省市的均消费水平分为了高中低三个类别,还有4个省市作为待判个案。下面就可以针对这4个省份进行逐步判别分析,以确定这4个地区所属的类别。

1) 描述性统计信息。

如图所示,“分析案例处理摘要”**是关于样本的使用信息,包括有效数据、缺失数据(此处的缺失数据就是指未分类的4个个案)的统计信息。

聚类分析作业

聚类分析 p230.6.9 1 用快速聚类法分为3类 年份 上表展示了3个类的初始中心情况,3个初始类中心点的数据分别为 50.5,20.9,28.6 37.6,38.0,24.4 18.6,49.3,32.1 对应的年份分别是1952年,1966年,1998年。每次分类得到的初始聚类中心和最终聚类...

聚类分析作业

已知每个农业小区域的气候取决于四个指标 热量 水分 霜冻 霜雹。假设现有五个农业小区域,其相应的指标数据如下表,运用模糊聚类的方法对其进行合理分类 解 由题目条件知变量指标均大于0,且没有量纲,数据之间具有一定的可比性,故不需进行预处理变换 直接用绝对值减数法建立模糊相似矩阵。公式为 c取适当值,使...

北航数值分析编程大作业一

数值分析b 大作业一。4系 zy1104219 许柱山。一 算法设计方案 1 首先应该创建原矩阵,但由于题目所给的矩阵是501 501的大型矩阵,计算机在计算时可能会运行不起来。而我们可以发现原矩阵a是一个带状矩阵,因此可以利用这一特点将其压缩存储。2 由于 1 2 501,所以在以所有特征值建立的...