数据挖掘技术平时作业

发布 2022-06-26 16:51:28 阅读 3647

第一次:

1. 什么是数据挖掘?当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。

参***】数据挖掘是指从大量数据中提取有趣的(有价值的、隐含的、先前未知的、潜在有用的)关系、模式或趋势,并用这些知识与规则建立用于决策支持的模型,提供**性决策支持的方法。

很多学者把数据挖掘当作另一术语kdd的同义词,而另一些学者把数据挖掘看作kdd的一个步骤。当把数据挖掘看作知识发现过程时,数据挖掘的过程大致有以下几步:

)数据清理与集成。

2)任务相关数据分析与选择。

3)数据挖掘实施。

4)模式评估。

5)知识理解与应用。

第二次:1. 在现实世界中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。

参***】处理空缺的属性值有以下几种方法:

1)忽略元组。

2)人工填写空缺值。

3)自动填充。

1)使用全局常量 ,如用 unknown 或 -∞

2)使用属性的平均值。

3)使用与给定元组属于同一类的所有样本的平均值。

4)使用可能的值 :这些值可以用回归 、 判定树 、基于推导的贝叶斯形式化方法等确定。

2. 假定用于分析的数据包含属性age,数据元组中age的值如下:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70

a) 使用最小-最大规范化,将age值35转换到[0.0,1.0]区间。

参***】根据公式进行计算。

根据提供的数据,maxa=70,mina=13,将将age值35转换到[0.0,1.0]区间,有:

v’=(35-13)/(70-13)*(1.0-0.0)+0.0=0.386

所以,将值35映射到区间[0.0,1.0]后的值为0.386。

b) 使用z-score规范化转换age值,其中age的标准差为12.94。

参***】根据公式进行计算,其中,v=35, =29.96, =12.94

所以:v’=(35-29.96)/12.94=0.39

第三次:1. 简述解决分类问题的一般方法,并说明决策树分类的主要步骤。

参***】1)学习过程:对训练集(类标号已知)进行学习训练,建立分类模型。

2)分类:应用测试集评估分类模型的准确率;如果准确率是可以接受的,模型可用于新的数据元组分类。

决策树分类的步骤:

1) 以代表训练样本的单个节点开始建树(创建n节点)。

2) 如果样本都在同一个类,则该节点成为树叶,并用该类标记。

3) 否则,算法使用称为信息增益的基于熵的度量为启发信息,选择能够最好的将样本分类的属性,该属性成为该节点的测试或判定属性。(注意:在这类算法中,所有的属性都是分类的,即取离散值的。

连续值的属性必须离散化。)

4) 对测试属性的每个已知的值,创建一个分支,并据此划分样本。

5) 算法使用同样的过程,递归地形成每个划分上的样本决策树。一旦一个属性出现在一个节点上,就不必考虑该节点的任何后代。递归划分步骤,当下列条件之一成立时停止:

a) 给定节点的所有样本属于同一类。

b) 没有剩余属性可以用来进一步划分样本。在此情况下,采用多数表决。这涉及将给定的节点转换成树叶,并用样本中的多数所在的类别标记它。

c) 分支(测试属性的分枝)没有样本。在这种情况下,以样本中的多数创建一个树叶。

2. 决策树归纳具有哪些特点?

参***】1) 决策树归纳是一种构建分类模型的非参数方法。它不需要任何先验假设,不假定类和其他属性服从一定的概率分布。

2) 找到最佳的决策树是np完全问题。许多决策树算法都采取启发式的方法指导对假设空间的搜索。

3) 已开发的构建决策树技术不需要昂贵的计算代价,即使训练集非常大,也可以快速建立模型。

4) 决策树相对容易解释,特别是小型的决策树。在很多简单的数据集上,决策树的准确率也可以与其它分类算法相媲美。

5) 决策树是学习离散值函数的典型代表。

第四次:1. 简单的描述如何计算由如下类型的变量描述的对象间的相异度:

1) 不对称的二元变量。

2) 标称变量。

3) 序数型变量。

4) 数值型变量(区间标度型)变量。

参***】1)对于不对称的二元变量,可以采用jaccard系数来计算两个对象之间的相似度。公式如下:

d(i,j)=(r+s)/(q+r+s)

2)对于标称变量,有两种方法来计算对象之间的相似度。

方法一:用简单匹配方法来计算:

d(i,j)=(p-m)/p

其中,m是匹配数,即对象i和j取值相同的变量的数目,p是全部变量的数目。

方法二:转换为非对称的二元变量来计算。为每一个标称状态创建一个新的二元变量。

对一个有特定状态值的对象,对应该状态值的二元变量值置为1,而其余的二元变量值置为0。这样,可以用非对称二元变量的相似度计算方法来计算标称变量对象的相似度。

3)对于序数型变量,先做如下处理:

例如变量f有mf个有序的状态,对应于序列1,..mf,xif是第i个对象的f变量的值,用对应的秩rif代替xif,rif∈。

通过如下转换把变量的值域映射到[0.0,1.0]上:

zif=(rif-1)/(mf-1)

经过转换后,相似度的计算可以采用距离度量方法来计算。

4)对于数值型变量,可以采用距离度量方法来计算对象的相似度。常用的距离度量有如下三种:

1)欧几里得距离 (2)曼哈顿距离 (3)明考斯基距离。

数据挖掘上机作业

数据挖掘 实验。实验要求 一 所有选课的学生都必须提交上机实验报告 二 实验报告应包括如下内容 1 算法基本思想的描述。2 编程实现算法。3 输出运算结果。三 分类技术和凝聚技术的两个问题中,可以各选择一个题目,关联规则挖掘的题目必选,即每个人至少选三个题目。实习一分类技术及其应用。实习题1 基于决...

数据库技术平时作业三

1.模式分解的准则 模式分解具有无损连接性,模式分解能够保持函数依赖性。无损连接是指分解后的关系通过自然连接可以恢复成原来的关系 保持函数依赖分解是指在模式的分解过程中,函数依赖不能丢失的特性,即模式分解不能破坏原来的语义。2.如果r u,f 1nf,并且r中的每个非主属性都完全函数依赖于关键字,则...

数据挖掘第二讲作业

第二讲大数据分析处理概述。1 hadoop是一个 c a.进行大数据分析处理的操作系统。b.专门存储大数据的数据库。c.大数据计算框架。d.收费的商业数据分析服务提供商。2 hadoop集群可以运行的3个模式是 abc 多选。a.本地模式。b.伪分布模式。c.全分布模式。d.离线模式。3 在hado...