浙江大学远程教育学院。
数据挖掘》课程作业。
第一章引言。
一、填空题。
1)数据库中的知识挖掘(kdd)包括以下七个步骤: 数据清理 、 数据集成 、
数据选择 、 数据变换 、 数据挖掘 、 模式评估和知识表示
2) 数据挖掘的性能问题主要包括: 算法的效率 、 可扩展性和并行处理
3) 当前的数据挖掘研究中,最主要的三个研究方向是: 统计学 、 数据库技术和。
机器学习 4) 孤立点是指: 一些与数据的一般行为或模型不一致的孤立数据
二、简答题。
1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
2)一个典型的数据挖掘系统应该包括哪些组成部分?
答: 一个典型的数据挖掘系统应该包括以下部分: 数据库、 数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面。
3)web挖掘包括哪些步骤?
答:数据清理: (这个可能要占全过程 60%的工作量) 数据集成将数据存入数据仓库建立数据立方体选择用来进行数据挖掘的数据数据挖掘(选择适当的算法来找到感兴趣的模式) 展现挖掘结果将模式或者知识应用或者存入知识库。
4)请列举数据挖掘应用常见的数据源。
或者说,我们都在什么样的数据上进行数据挖掘)
答: 常见的数据源包括关系数据库、 数据仓库、 事务数据库和高级数据库系统和信息库。 其中高级数据库系统和信息库包括:
空间数据库、时间数据库和时间序列数据库、流数据、 多**数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(www)等。
第二章认识数据。
一、填空题。
1)两个文档向量d1和d2的值为:d1 = 1, 0, 3, 0, 2),d2 = 3, 2, 0, 0, 1),则它们的余弦相似度为: 5/13
2)数据离散度的常用度量包括极差 、 分位数 、 四分位数 、 百分位数四分位数极差和标准差
3)一种常用的确定离群点的简单方法是: 出落在至少高于第三个四分位数或低于第一个四分位数 1.5×iqr 处的值 。
二、单选题。
1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:
a、中位数=平均值=众数; b中位数》平均值》众数;
c、平均值》中位数》众数; d;众数》中位数》平均值。
答:c2)下面的散点图显示哪种属性相关性?
a不相关b正相关c负相关; d先正相关然后负相关;
答:c三、简答题。
1)什么是基于像素的可视化技术?它有什么缺点?
答:对于一个 m 维数据集,基于像素的可视化技术在屏幕上创建 m 个窗口,每维一个。 记录的 m 个维值映射到这些窗口对应位置上的 m 个像素。
像素的颜色反映对应的值。基于像素的可视化技术的缺点: 难以呈现多维空间的数据分布, 不显示数据子空间中是否存在稠密区域。
2)对称的和不对称的二元属性有什么区别?
答: 对称的二元属性指变量的两个状态具有同等价值或相同权重; 而不对称的二元属性中, 变量的两个状态的重要性是不同的。 对称的二元属性可以使用简单匹配系数评估它们的相异度;不对称的二元属性使用 jaccard 系数评估它们的相异度。
第三章数据预处理。
一、 填空题。
1)进行数据预处理时所使用的主要方法包括: 数据清理 、数据集成 、
数据变换和数据规约
2)数据概化是指: 沿概念分层向上概化
3)数据压缩可分为: 有损压缩和无损压缩两种类型。
4)进行数值归约时,三种常用的有参方法是: 线性回归方法 、 多元回归和对数线性模型。
二、简答题。
1)常用的数值属性概念分层的方法有哪些?
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
2)请描述主成份分析(pca)算法步骤。
据:所有属性落在相同的区间内; 2) 、计算 k 个标准正交向量,即主成分; 3) 、每个输入数据的向量都是这 k 个主成分向量的线性组合; 4) 、主成分按照重要程度降序排序。
3)在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
答:处理空缺值的方法有: (1) 忽略元组。
当类标号缺少时通常这么做(假定挖掘任务设计分类或描述) ,当每个属性缺少值的百分比变化很大时,它的效果非常差。 (2) 人工填写空缺值。这种方法工作量大,可行性低 (3) 使用一个全局变量填充空缺值:
比如使用 unknown 或-∞ 4) 使用属性的平均值填充空缺值 (5) 使用与给定元组属同一类的所有样本的平均值 (6) 使用最可能的值填充空缺值。如使用像 bayesian 公式或判定树这样的基于推断的方法
4)常见的数据归约策略包括哪些?
答:数据归约策略包括: (1) 数据立方体聚集 (2) 维归约 (3) 数据压缩 (4) 数值归约 (5) 离散化和概念分层产生。
第六—七章挖掘频繁模式、关联和相关。
一、填空题。
1)关联规则挖掘中,两个主要的兴趣度度量是: 支持度和置信度
2)aprior算法包括连接和剪枝两个基本步骤。
3)项集的频率是指包含项集的事务数。
4)大型数据库中的关联规则挖掘包含两个过程: 找出所有频繁项集和由频繁项集产生强关联规则。
5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则
6)apriori性质是指: 频繁项集的所有非空子集也必须是频繁的
7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集
二、简答题。
1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。
缺点:最小支持度值设置困难:太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
2)如何提高apriori算法的有效性?有哪些常见方法?
答:可以使用以下几个思路提升 apriori 算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。
常见方法包括:a、基于 hash 表的项集计数; b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘) ;e、动态项集计数。
第八章分类。
一、填空题。
1)数据分类模型的常用表示形式包括分类规则 、 决策树和数学公式等。
2)朴素贝叶斯分类是基于类条件独立假设。
二、简答题。
1)在判定树归纳中,为什么树剪枝是有用的?
答:决策树建立时,许多分枝反映的是训练数据中的噪声和离群点点,树剪枝可以识别并剪去这种分枝,以提高对未知数据分类的准确性。
2)为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺点。
答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设, 大幅降低了计算开销。
他的优点是容易实现并在大多数情况下可以取得较好的结果; 他的缺陷是类条件独立在实际应用中缺乏准确性, 因为变量之间经常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。
3)分类方法的常用评估度量都有哪些?
答:精度(precision) :标记为正类的元组实际为正类所占的百分比召回率:
正元组标记为正的百分比 f 度量:精度和召回率的调和评估指标准确率(accuracy) ,识别率:测试数据中被正确分类的元组所占的百分比; 灵敏度( sensitivity ) 真正例(识别)率特效性( specificity ) 真负例率。
4)简述数据分类的两步过程。
答:第一步,建立模型:建立描述预先定义的数据类或概念集的分类器; 第二步,在独立测试集上评估模型的**准确率,通过测试后再使用模型,对新的数据进行分类。
三、算法题。
1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买pc game,即构建判定树buys_pcgame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益。
对age<18的顾客:gain(income)=0.022,gain(student)=0.162,gain(credit_rating)=0.323
对age>23的顾客:gain(income)=0.042,gain(student)=0.462,gain(credit_rating)=0.155
请根据以上结果绘制出判定树buys_pcgame,来判定用户是否会购买pc game。
数据挖掘上机作业
数据挖掘 实验。实验要求 一 所有选课的学生都必须提交上机实验报告 二 实验报告应包括如下内容 1 算法基本思想的描述。2 编程实现算法。3 输出运算结果。三 分类技术和凝聚技术的两个问题中,可以各选择一个题目,关联规则挖掘的题目必选,即每个人至少选三个题目。实习一分类技术及其应用。实习题1 基于决...
浙大商法离线作业答案
一 名词解释。1 商人。指以一定的自身或社会有形资源或无形资源为工具获取利润并附有一定社会责任的人,或者是指以自己名义实施商业行为并以此为常业的人。2 商号商号是商人在营业活动中表彰自己的名称。3 股份 股份 又称股份公司,是指其全部资本分为等额股份,股东以其所认购的股份为限对公司承担责任,公司以其...
浙大商法离线作业答案
一 名词解释。1 商人。指以一定的自身或社会有形资源或无形资源为工具获取利润并附有一定社会责任的人,或者是指以自己名义实施商业行为并以此为常业的人。2 商号商号是商人在营业活动中表彰自己的名称。3 股份 股份 又称股份公司,是指其全部资本分为等额股份,股东以其所认购的股份为限对公司承担责任,公司以其...