《数据挖掘技术》试卷A2019白专升本

发布 2020-05-15 08:28:28 阅读 6643

福州大学2012~2013学年第一学期考试a卷。

课程名称《数据仓库与挖掘技术》考试日期2023年12月考生姓名学号专业。

题号题分得分。

一20二15

三20四15

五15六15

总分100累分人签名。

考生注意事项:1、本试卷共5页,请查看试卷中是否有缺页。一、简述题:(每小题得分。

评卷人。10分,共20分)

1、写出文本分类过程,其中所涉及到的计算公式可以不写,但名称或用途要写。

答:给定文本集d=

1、对di(1<=i<=n)分词,di=(t1,…,tni)

2、特征选择:采用卡方、信息增益等方法计算每个词tij的重要程度的量化值,从中选择出n个特征词。3、特征词权重量化:

采用tf/idf等方法计算上述每个特征词的量化了的权重。4、分类器//knn

5、评价标准//精确率和召回率,f1测试值。

2、某公司有分公司多家,分布在全球各地,主营家电、数码、计算机等产品销售,请以此应用场景,说明:如果你作为主管想要建立数据仓库,你考虑的主题可以有哪些?支持该主题可以选用何种数据组织模型?

第1页共3页。

二、分类与**:基于id3的决策树算法(本题15分)。得分评卷人。

假设数据集为://log102=0.301, log103=0.

477, log105=0.699,log23=1.585,log107=0.

8451,i5(3,2)=0.97, i3(1,2)=0.92,e为决策属性,用id3算法构造相应的决策树,计算1次**属性的选择即可。

要求详细写出每次计算过程。

三、聚类算法(本题20分)。

得分。评卷人。

给定数据集同上,即。

采用k-均值方法将它们分为k=2组,随机指派均值:k1=,k2=,距离公式采用曼哈坦距离公式。要求写出每次迭代过程。

四、关联规则挖掘(本题15分)。

假设一组事务如下。最小支持度为3。

用apriori算法计算k频繁项目集,k=1,2,3,….

得分。评卷人。

第2页共3页。

五、分类与**(本题15分)。

给定数据集同上,即。

得分。评卷人。

采用朴素贝叶斯方法**新对象(0,0,0,1)的类别。e为分类属性。

六、分类与**(本题15分)。

给定数据集同上,即。

得分。评卷人。

采用k-nn算法**新对象(0,0,0,1)的类别,假设k=3,距离公式采用欧氏距离公式。要求详细写出每次计算过程。e为分类属性。

第3页共3页。

数据挖掘技术平时作业

第一次 1 什么是数据挖掘?当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。参 数据挖掘是指从大量数据中提取有趣的 有价值的 隐含的 先前未知的 潜在有用的 关系 模式或趋势,并用这些知识与规则建立用于决策支持的模型,提供 性决策支持的方法。很多学者把数据挖掘当作另一术语kdd的同义词,而...

浙大2019冬数据挖掘离线作业答案

浙江大学远程教育学院。数据挖掘 课程作业。第一章引言。一 填空题。1 数据库中的知识挖掘 kdd 包括以下七个步骤 数据清理 数据集成 数据选择 数据变换 数据挖掘 模式评估和知识表示 2 数据挖掘的性能问题主要包括 算法的效率 可扩展性和并行处理 3 当前的数据挖掘研究中,最主要的三个研究方向是 ...

2023年数据挖掘与数据仓库考试题a

1 10分 讨论 下列每项活动是否是数据挖掘任务?简单陈述你的理由。a 根据性别划分公司的顾客。不是。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术服务用来探查大型数据库,发现先前未知的有用模式。还可以 未来观测结果,例如,一位新的顾客是否会在一家百货公司消费100美元以上。但...