数字城市大作业

空间数据挖掘技术及聚类技术的现实应用。

摘要随着空间获取技术和计算机网络等技术的迅速发展，使得空间数据资源急剧膨胀，为了充分利用这些海量数据，并推动数字城市的发展。本文对空间数据挖掘与传统数据挖掘进行比较，并对空间数据挖掘的主要方法及特点进行了分析，总结出空间数据挖掘技术可包括空间分类和空间趋势**、空间聚类、空间规则挖掘、空间离群点查找等。并举例说明空间聚类挖掘的应用。

最后，对本文进行的总结。

关键字空间数据挖掘主要方法算法聚类分析的应用

一引言。20世纪中后期，以计算机技术为代表的现代科学技术迅速发展，加快了世界信息化的进程。而信息社会的到来则极大地提高并加速了各个领域和部门生产、采集、管理、存储和处理各种数据信息的能力，而且这些数据每天都在高速增长，使得各种数据资源日益丰富。

虽然数据量在以惊人的速度与日俱增，但是人们真正从这些海量数据中获取的知识却是极其有限的，大量的数据资源闲置浪费。数据库中隐含的丰富的知识没有得到充分的挖掘和利用，急剧增长的数据量远远超过了人们对它们的理解能力。数据挖掘(也称为知识发现) 在数据和数据库急剧膨胀的背景下应运而生，它既是3s 集成中的一项关键技术，也是数字地球技术系统中的重要内容[1] 。

数据挖掘及后来兴起的空间数据挖掘的发展经历了几个阶段： 1991～ 1995 年，研究数据挖掘主要是基于统计、决策树和规则抽取等技术；1996～1999 年，统计、决策树和规则抽取技术已成为基本技术方法，而bayes网络、基于事例的推理技术已得到相当好的进展，基于模糊集和rough集的技术也开始得到应用；这一阶段的另一个主要特点是多方法的集成；2023年后，不仅模糊集和rough 集技术得到了进一步的应用，而且像支持向量机这样的新技术也颇受关注；由于internet的发展，基于internet的数据挖掘和信息检索，成为这一阶段的一个热点研究领域，另外就是多**数据的挖掘也得到了研究者的重视。现代空间获取技术和计算机网络等技术的发展，使得空间数据资源急剧膨胀。

但海量的数据并没给人们以海量知识，他们只是一些基本的原材料，描述发生了什么事情却不能作为知识成为决策和行动的可靠基础，就是说数据没转变为知识被人充分利用起来。所以目前状况为信息过量，难以被人们所消化，于是产生了空间数据挖掘。

空间数据挖掘技术的产生与发展来自两大推动力[2]。

第一，由于数据挖掘研究领域的不断拓展，由最初的关系数据和事务数据挖掘，发展到对空间数据的挖掘。空间数据库有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息，包含更丰富的知识。

第二，大量的数据通过传感器和其他数据采集设备源源不断地收集。随着数字城市实施，各种空间数据大量产生。海量的空间数据在某种意义上已超过了人们处理能力，传统的空间分析难以胜任从这些海量的数据中提取和发现空间知识。

数据挖掘与知识发现的出现很好地满足了空间数据处理的需要，推动了数据挖掘技术在空间数据中的应用，促使空间数据挖掘的产生与发展。

二空间数据挖掘与传统数据挖掘的区别。

空间数据挖掘（spatial data mining,简称sdm），是从空间数据库中抽取隐含知识、空间关系或非显式地存储在空间数据库中的有实际意义的特征；它旨在使用计算机技术从大型空间数据库中发现未知的各种空间规律、关系、趋势等，从而有助于我们进行更好的科学决策。

空间数据挖掘有多种分类方法：从发现知识来划分，可以分为分类规则挖掘、特征规则挖掘、趋势分析等；从数据库的类型划分，可以分为关系型、事物型、面向对象型、空间型等；从采用的技术来划分，有规则归纳，粗糙集（rough）方法、可视化技术等。

由于空间数据挖掘与传统数据挖掘在数据、数据的存储方式、查找模式上的不同，便决定了他们之间有以下的差异：

数据的复杂性：前者比后者更加复杂。举例来说，空间数据包含扩展的对象如点、线、面等比一般关系数据库包含了更丰富的知识。

空间数据包含了费空间和空间属性，非空间属性如地名、人口、温度、气压等；空间属性如经纬度、实体形状、空间方位等。

空间数据存在于连续的数据空间，与之相反的是传统的数据通常是离散的；

空间模式是基于局部的，而传统的模式是基于全局的；

空间关系如叠加、拓扑等是不明确的，传统数据关系是明确的，如逻辑关系；

空间数据存在自相关，传统数据分析是基于数据采样是独立的；

在存储与获取方面：空间对象用数据类型和空间关系表示；空间数据库常需空间推理、几何计算和空间知识来表示。这决定了空间数据挖掘比传统数据挖掘更复杂；

空间数据具有多源、多维、时态性的特点，所获取的数据例如一个城市级的gis系统，一般数据量都可达到gb的数据量级。

三空间数据挖掘方法。

按照挖掘目的划分，空间数据挖掘技术包括：空间分类和空间趋势**、空间聚类、空间规则挖掘、空间离群点查找等。

3.1空间分类和空间趋势**。

分类的目的是学会一个分类函数或分类模型，该模型能把数据库中的数据项映射到给定类别中的某一个。空间分类对空间对象进行划分，分析空间对象并导出与一定空间特征有关的分类模式。例如河流、高速公路的领域；空间趋势**就是根据某空间维找出变化趋势。

分类和**具有很大相似性，在数据挖掘界广泛接受的观点是：用**法**类标号为分类，用**法**连续值为**。

ester等[3]提出基于id3 算法的空间分类算法。该方法利用近邻图分类。

近邻图是由空间对象构造的一种图。每个对象对应图中的一个结点，依据每个对象的近邻来构造边。如果一个结点是另一个结点的近邻，那么在近邻图中就存在一条边将这两个结点连接起来。

算法考察给定对象的相邻对象。由用户输入给定的最大长度指标，根据该指标，可以确定与目标结点关联的一组结点。在其后的分类过程中。

同时考虑目标对象与其近邻对象的非空间属性。该方法的缺点是没有分析邻近对象非空间属性的聚合值，没有进行相关性分析，可能会生成低质量的决策树；而且，该算法没有考虑非空间和空间属性值中可能存在的概念层次。

顾及决策树邻近对象的非空间属性的聚合值，基于分类对象的非空间属性，描述被分类对象和邻近特征的空间关系的属性、谓词和函数。koperski和han提出了空间数据的两步决策分类法[4]。在查找样本对象的粗略描述后，利用机器学习的relief算法提取空间谓词，合并空间谓词和非空间谓词为分类决策知识。

但是基于决策树的分类算法不适合处理带有不完整信息的问题。空间数据分类标准中包含数据间的空间关系，从某个训练数据集来讲，空间属性极有可能缺失。如果输入数据出现了不一致、噪声等情况，决策树算法可能会造成误分，就会严重影响决策树算法的**准确度，因而采用决策树空间分类算法不能很好地体现地理空间关系对于分类的影响。

石云等人提出的基于rough set的空间数据分类方法[5] ,采用rough set方法进行空间对象分类，能够较好地反映空间和非空间数据之间的关系，为利用邻近区域中基于非空间属性的聚合值来对空间对象进行分类提供了可行性，较好地解决了上述问题。

此外，回归分析、贝叶斯原理、神经网络等都可以扩展来进行空间数据分类。

空间趋势**是指**对象的一个或多个属性从某个起始点起有规律的变化。ester等用近邻路径对运动建模。对近邻路径上的各个对象进行回归分析来描述变化规律。

回归分析中从某点出发的距离变量是独立的，其他变量是相关的。空间趋势可分为全局的与局部的。全局趋势表示从某个对象开始的全部路径的全部对象某些属性总的表现是增加或减少：

局部趋势表示是从某个对象开始的某条路径具有某种趋势。

3.2 空间聚类。

聚类是指根据“物以类聚”的原理，将样本聚集成不同的组，使得组内样本之间彼此相似，而组间样本足够不相似，并且对每一个组进行描述的过程与空间分类不同，进行聚类前组的类别与个数是未知的。一般地，主要的聚类算法可以分为5类[6].

1）划分方法（partitioning method）

给定一个n 个对象或元组的数据库，给定要构建的划分的数目k( k < n) ,划分方法首先创建一个初始划分。然后采用一种迭代重定位技术，尝试通过对象在划分间移动来改进划分。一个划分方法构建数据的k个划分，每个划分表示一个聚类。

典型的划分算法如k-means算法、k-medoids算法和clarans算法等。

k-means算法[7]以k为参数，把n个对象分为k个聚类，以使聚类内具有较高的相似度，而聚类间的相似度较低。相似度的计算根据一个聚类的平均值(被看作聚类的重心) 来进行。但k-means算法对孤立点是敏感的。

k-medoids[8]算法不采用聚类中对象的平均值作为参照点，选用聚类中位置最中心的对象，即中心点。仍然是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的。

clarans 算法[9]由ng和han提出，其聚类过程可以表示为查找一个图，图中的每个节点都是潜在的解决方案。在替换一个中心点后获得的聚类称为当前聚类的邻居。随意测试的邻居的数目由参数maxneighbor限制。

如果找到一个。

更好的邻居，将中心点移至邻居节点，重新开始上述过程，否则在当前的聚类中生成一个局部最优。找到一个局部最优后，再任意选择一个新的节点，重新寻找新的局部最优。局部最优的数目被参数numlocal限制。

可以看到，clarans算法并不搜索遍所有的求解空间，也不限制在任何具体的采样中。clarans算法每次迭代的计算复杂度与对象的数量基本呈线性关系。基于clarans算法的空间数据聚类算法也有两种：

空间支配算法和非空间支配算法。clarans方法的缺点是要求欲聚类的对象必须预先都调入内存里，这对非常大的空间数据库是不合理的。

2) 层次的方法( hierarchical method)

层次的方法对给定数据对象集合进行层次的分解，它分为凝聚层次聚类与。

**层次聚类。凝聚层次聚类是自底向上的策略，首先将每一个对象作为一个聚类，然后合并它们，直到满足某个条件；**层次聚类正好相反，首先把所有的对象看作一个聚类，然后逐渐细分成越来越小的聚类，直至达到某个终结条件为止。著名的层次方法有birch算法和cure算法等。

zhang等人提出了平衡迭代消减聚类算法birch[10]，它是一种较为灵活的增量式聚类方法，能根据内存的配置大小自动调整程序对内存的需要。它有两个重要概念：聚类特征(clustering feature) 和聚类特征树(cf-tree) ,它们用于概括聚类描述。

聚类特征(cf) 是一个三元组，给出对象子聚类的信息的汇总描述。给定某个子聚类中有n 个d 维的点或对象，则这个子聚类的聚类特征可表示为cf = n , l s ,s s) 。其中， n 是对象的个数， l s是n 个对象的线性和，即l s = ni = 1oi ,它代表了这个子聚类的重心； s s 是n 个对象。

的平方和，即s s = ni = 1o2i, 它代表了这个子聚类的直径大小， s s 越小，这个子聚类聚得越紧。聚类特征树是一个满足两个条件的平衡树。两个条件分别是：

分枝因子和子聚类直径的限制。分枝因子规定了树的每个节点的子女的最多个数；而子聚类直径体现了对一子聚类的直径大小的限制，即聚类特征的s s 不能太大，否则不能聚为一类。非叶子节点上存储了它的子女的聚类特征的和，因此该节点总结了其子女的信息。

数字城市大作业

数字城市作业

数字逻辑大作业

数字地球导论大作业

其他用户还读了