《数据挖掘》结课报告概要

发布 2022-09-21 06:39:28 阅读 7465

-基于k-最近邻分类方法的连衣裙属性数据集的研究报告。

(2013--2014 学年第二学期)

学院。专业。

班级:学号。

姓名。指导教师。

二〇一四年五月二十四日。

1、研究目的与意义。

介绍所选数据反应的主题思想及其研究目的与意义)

1、目的。(1)熟悉weka软件环境;

(2)掌握数据挖掘分类模型学习方法中的k-最近邻分类方法;

(3)在weka中以“dress attribute dataset”为例,掌握k-最近邻分类算法的相关方法;

(4)取不同的k值,采用不同的**方法,观察结果,达到是否推荐某款连衣裙的目的,为企业未来的规划发展做出依据。

2、意义。此数据集共有14个属性,500个实例,包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况,按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发展市场的扩大及企业的发展战略具有重要意义。

二、技术支持。

介绍用来进行数据挖掘、数据分析的方法及原理)

1、原理:k-最近邻分类算法是一种基于实例的学习方法,不需要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用具体的训练样本进行**,通过在训练集中找出测试集的k个最近邻,来**估计测试集的类标号;

2、方法:k-最近邻方法是消极学习方法的典型代表,其算法的关键技术是搜索模式空间,该方法首先找出最近邻即与测试样本相对接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本的类标号。

三、数据处理及操作过程。

一)数据预处理方法。

1、“remove”属性列:数据集中属性“dress_id”对此实验来说为无意义的属性,因此在“attributes”选项中勾选属性“dress_id”并单击“remove”,将该属性列去除,并保存新的数据集;

2、离散化预处理:需要对数值型的属性进行离散化,该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型,因此只对这两个属性离散化。

recommendation”属性只有2个取值:0,1,因此用文本编辑器“ultra edit”或者写字板打开数据集并直接修改“dress attribute data 文件,把 “@attribute recommendation numeric ”改为 “ attribute recommendation ”,并保存;在“explorer”中重新打开“dress attribute data 选中“recommendation”属性后,右方的属性摘要中“type”值变为“nominal”。

在过滤器filter中单击“choose”,出现树形图,单击“weka”--filters”--unsupervised”--attribute”--discretize”,点击“choose”右边的文本框进行参数设置,把“attribute indices”右边改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它参数不更改,点“ok”回到“explorer”,单击“apply”离散化后的数据如下所示:

3、缺失值预处理:在过滤器filter中单击“choose”,出现树形图,单击“weka”--filters”--unsupervised”--attribute”--replace missing values”,单击“apply”。在weka中可以看出该数据集中不存在缺失值,因此不必进行缺失值的预处理。

二)参数设置。

要求介绍每个参数的意义、取值范围、调整依据及最终的设置)

1、数据集属性及其取值:

1)dress_id numeric:货号。

2)style:风格。

3)price:**

4)rating:等级numeric

5)size:尺寸。

6)season:季节。

7)neck line:领口。

8)sleeve length:袖长。

9)waise line:腰围

10)material:材料。

11)fabric type:布料类型。

12)decoration:装饰。

13)pattern type:图案类型

14)recommendation:是否推荐 numeric

2、离散化预处理参数设置:

(1)attribute indices:属性下标。选择要离散化的属性,将其下标号以逗号隔开;

(2)bins:决定将数据离散化为几段;

(3)desired weight of instances per interval:对等频离散化来说每个间隔所需的实例权重;

(4)findnumbins:如果设置为true,则对于等距离离散化找到最优的段数,对等频离散化无作用;

(5):ignoreclass:如果设置为true,则过滤器使用之前,没有设置class属性;

(6)invert selection:集属性选择模式。如果设置为false,只有选择(数字)范围内的属性将被离散的,否则只有非选定的属性将被离散;

(6)make binary:如果设置为true,则变为二进制;

(7)use equal frequency:等频离散化,如果设置为true,则使用等频离散化,否则使用等距离离散化。

3、算法执行参数设置:

1)knn:测试样本的最近邻的个数,默认为1,则使用1个最近邻进行分类;

2)cross validate:交叉验证,如果设置为true,则使用交叉验证;

3)debug :调试,设置为true,则分类器可能在控制台输出另外的信息;默认false;

4)distance weighting:如果设置为true,则使用距离加权;

5)mean squared:均方差,默认为false;

6)nearest neighbour search algorithm:最近邻的搜索算法;

7)window size:窗口大小。

4、单击more option按钮的参数:

(1)output model.:输出基于整个训练集的分类模型,从而模型可以被查看,可视化等。该选项默认选中。

(2)output per-class stats:输出每个class的准确度/反馈率(precision/recall)和正确/错误(true/false)的统计量。该选项默认选中。

(3)output evaluation measures: 输出熵估计度量。该选项默认没有选中。

(4)output confusion matrix:输出分类器**结果的混淆矩阵。该选项默认选中。

(5)store predictions for visualization:记录分类器的**结果使得它们能被可视化表示。

数据结构结课报告

t1123 03 又是一年总结时。记得高中的时候,老师总强调学习要学会总结,通过总结,才能知道自己学到了什么,什么还没有学到 通过总结,才能提高自己!这学期也接近尾声了,回过头看看,通过这学期的学习,对 数据结构与程序构建 这门课,还是有不少收获的。其实时间不是问题。记得刚开始的时候,我对这门课时一...

结课报告格式

标题 黑体二号 副标题 楷体,四号 若有 请留出一个汉字的空间,下同。1 xbrl的发展现状 可作为正文第1章标题,用小2号黑体,并留出上下间距为 段前1行,段后1行 5号宋体,20磅行距,首行缩进两字 标题 黑体二号 副标题 楷体,四号 若有 1 xbrl的发展现状 可作为正文第1章标题,用小2号...

信息检索课结课报告

2012 2013学年第一学期。1 检索课题名称 2 分析课题 光学,是研究光的行为和性质,以及光和物质相互作用的物理学科。传统的光学只研究可见光,现代光学已扩展到全波段电磁波的研究。我们所学的专业与它很有关联,所以希望搜集更多的信息来更好的了解它和学习它。1检索类型 文献检索,检索,2查找年代 2...