一、概述。
数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规。
则的过程。数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不。
同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据立方体:允许以多维对数据建模和观察。由维和事实组成。其中事实是数值的度量。
分类:就是通过学习获得一个目标函数f,将每个属性集x映射到一个预先定义好的类标。
号y.分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例。用元组(x,y)表示,其中,x是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性).
信息检索:信息检索(informationretrieval)是指信息按一定的方式组织起来,并根据。
信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(informationsearch或information seek)。
知识发现(kdd):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以。
及最终可理解的模式的非平凡过程。
olap:olap是针对特定问题的联机数据访问和分析。
通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
维:是人们观察数据的特定角度。
企业常常关心产品销售随着时间推移而产生的。
变化的情况,这时企业是从时间的角度来观察产品的销售,所以时间就是一个维(时间维).
企业也常常关心自己的产品在不同地区的销售分布。
情况,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维).
上卷:--通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作。
下卷:--是上钻的逆操作。它由不太详细的数据到更详细的数据。钻取可以通过沿维的概。
念分层向下或引入新的维来实现。
切片:--设有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维。
1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维n,观察变量)在维i上的一个切片。
切块:--将完整的数据立方体切取一部分数据而得到的新的数据立方体。
在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块。
二、简述。1、kdd的主要过程。
kdd过程是多个步骤相互连接、反复进行人机交互的过程。
主要包括以下步骤:
1.问题的理解和定义:数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。
2.相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。
3.数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。
4.数据工程:对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。
5.算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。
6.运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。7.结果的评价:
对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是kdd过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算法。kdd过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。
2、操作数据库系统与数据仓库的区别。
oltp和olap的主要区别概述如下:
用户和系统的面向性:oltp是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理。olap是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析。
数据内容:oltp系统管理当前数据。通常,这种数据太琐碎,难以方便地用于决策。
olap系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。这些特点使得数据容易用于见多识广的决策。
数据库设计:通常,oltp系统采用实体-联系(er)模型和面向应用的数据库设计。而olap系统通常采用星形或雪花模型和面向主题的数据库设计。
视图:oltp系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据。相比之下,由于组织的变化,olap系统常常跨越数据库模式的多个版本。
olap系统也处理来自不同组织的信息,由多个数据存储集成的信息。由于数据量巨大,olap数据也存放在多个存储介质上。
访问模式:oltp系统的访问主要由短的、原子事务组成。这种系统需要并行控制和恢复机制。
然而,对olap系统的访问大部分是只读操作(由于大部分数据仓库存放历史数据,而不是当前数据),尽管许多可能是复杂的查询。
oltp和olap的其它区别包括数据库大小、操作的频繁程度、性能度量等。oltp系统和olap系统的比较。
特性oltpolap特征操作处理信息处理面向事务分析。
用户办事员、dba、数据库专业人员知识工人(如经理、主管、分析员)功能日常操作长期信息需求,决策支持db设计基于e-r,面向应用星形/雪花,面向主题数据当前的;确保最新历史的;跨时间维护汇总原始的,高度详细汇总的,统一的视图详细,一般关系汇总的,多维的工作单位短的、简单事务复杂查询存取读/写大多为读关注数据进入信息输出操作主关键字上索引/散列大量扫描访问记录数量数十个数百万用户数数千数百。
db规模100mb到gb100gb到tb优先高性能,高可用性高灵活性,端点用户自治度量事务吞吐量查询吞吐量,响应时间。
其中:oltp指联机事务处理olap指联机分析处理。
3、如果面对学校数据库,你认为数据挖掘的目标是什么?
4、比较星型模式,雪花模式和事实星座模式。
5、你了解的信息检索模型幷简要叙述其思想。
6、数据挖掘的相关领域及主要的数据挖掘方法。
数据挖掘的相关领域:
1.金融数据分析的数据挖掘。
零售业的数据挖掘。
基于有效数据挖掘的数据仓库的设计和构造销售,顾客,产品,时间和地区的多维分析**活动的有效性分析。
顾客保持力――顾客忠诚度分析产品推销和产品的交叉推动3.电信业的数据挖掘。
电信数据的多维分析。
盗用模式分析和异常模式识别多维关联和序列模式分析。
移动通信服务。
电信数据分析中可视化工具的使用4.生物学数据分析的数据挖掘。
异构分布基因组和蛋白质组数据库的语义集成。
多核苷、蛋白质序列的对比、索引,相似性搜索和比较分析结构模式的发现、遗传网络和蛋白质路径的分析。
关联和路径分析:识别同时出现的基因序列、把基因与疾病的不同阶段链接基因数据分析中的可视化工具5.其他科技应用的数据挖掘。
数据仓库和数据库预处理挖掘复杂数据类型基于图的挖掘。
可视化工具和特定领域知识。
数据挖掘的方法:
可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中,可细分为:
回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例的推理cbr、遗传算法、贝叶斯信念网络等。
神经网络方法,可细分为:前向神经网络(bp算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是基于可视化的多维数据分析或olap方法,另外还有面向属性的归纳方法。
7、数据挖掘涉及的数据类型。
数据挖掘部分作业答案
一 概述。数据挖掘概念 数据挖掘是对大量数据进行探索和分析 以便发现有意义的模式和规则的过程。数据仓库 数据仓库就是面向主题的 集成的 非易失的 稳定性 随时间变化 不同时间 的数据集合,用以支持经营管理中的决策制定过程。数据立方体 允许以多维对数据建模和观察。由维和事实组成。其中事实是数值的度量。...
数据挖掘上机作业
数据挖掘 实验。实验要求 一 所有选课的学生都必须提交上机实验报告 二 实验报告应包括如下内容 1 算法基本思想的描述。2 编程实现算法。3 输出运算结果。三 分类技术和凝聚技术的两个问题中,可以各选择一个题目,关联规则挖掘的题目必选,即每个人至少选三个题目。实习一分类技术及其应用。实习题1 基于决...
浙大2019冬数据挖掘离线作业答案
浙江大学远程教育学院。数据挖掘 课程作业。第一章引言。一 填空题。1 数据库中的知识挖掘 kdd 包括以下七个步骤 数据清理 数据集成 数据选择 数据变换 数据挖掘 模式评估和知识表示 2 数据挖掘的性能问题主要包括 算法的效率 可扩展性和并行处理 3 当前的数据挖掘研究中,最主要的三个研究方向是 ...