《数据挖掘》结课报告概要

-基于k-最近邻分类方法的连衣裙属性数据集的研究报告。

(2013--2014 学年第二学期)

学院。专业。

班级：学号。

姓名。指导教师。

二〇一四年五月二十四日。

1、研究目的与意义。

介绍所选数据反应的主题思想及其研究目的与意义）

1、目的。（1）熟悉weka软件环境；

（2）掌握数据挖掘分类模型学习方法中的k-最近邻分类方法；

（3）在weka中以“dress attribute dataset”为例，掌握k-最近邻分类算法的相关方法；

（4）取不同的k值，采用不同的**方法，观察结果，达到是否推荐某款连衣裙的目的，为企业未来的规划发展做出依据。

2、意义。此数据集共有14个属性，500个实例，包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况，按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子，对发展市场的扩大及企业的发展战略具有重要意义。

二、技术支持。

介绍用来进行数据挖掘、数据分析的方法及原理）

1、原理：k-最近邻分类算法是一种基于实例的学习方法，不需要事先对训练数据建立分类模型，而是当需要分类未知样本时才使用具体的训练样本进行**，通过在训练集中找出测试集的k个最近邻，来**估计测试集的类标号；

2、方法：k-最近邻方法是消极学习方法的典型代表，其算法的关键技术是搜索模式空间，该方法首先找出最近邻即与测试样本相对接近的所有训练样本，然后使用这些最近邻的类标号来确定测试样本的类标号。

三、数据处理及操作过程。

一）数据预处理方法。

1、“remove”属性列：数据集中属性“dress_id”对此实验来说为无意义的属性，因此在“attributes”选项中勾选属性“dress_id”并单击“remove”，将该属性列去除，并保存新的数据集；

2、离散化预处理：需要对数值型的属性进行离散化，该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型，因此只对这两个属性离散化。

recommendation”属性只有2个取值：0，1，因此用文本编辑器“ultra edit”或者写字板打开数据集并直接修改“dress attribute data 文件，把 “@attribute recommendation numeric ”改为 “ attribute recommendation ”，并保存；在“explorer”中重新打开“dress attribute data 选中“recommendation”属性后，右方的属性摘要中“type”值变为“nominal”。

在过滤器filter中单击“choose”,出现树形图，单击“weka”--filters”--unsupervised”--attribute”--discretize”，点击“choose”右边的文本框进行参数设置，把“attribute indices”右边改成“3”，计划将该属性分成3段，于是把“bins”改成“3”，其它参数不更改，点“ok”回到“explorer”，单击“apply”离散化后的数据如下所示：

3、缺失值预处理：在过滤器filter中单击“choose”,出现树形图，单击“weka”--filters”--unsupervised”--attribute”--replace missing values”，单击“apply”。在weka中可以看出该数据集中不存在缺失值，因此不必进行缺失值的预处理。

二）参数设置。

要求介绍每个参数的意义、取值范围、调整依据及最终的设置）

1、数据集属性及其取值：

1）dress_id numeric：货号。

2）style：风格。

3）price：**

4）rating：等级numeric

5）size：尺寸。

6）season：季节。

7）neck line：领口。

8）sleeve length：袖长。

9）waise line：腰围

10）material：材料。

11）fabric type：布料类型。

12）decoration：装饰。

13）pattern type：图案类型

14）recommendation：是否推荐 numeric

2、离散化预处理参数设置：

（1）attribute indices：属性下标。选择要离散化的属性，将其下标号以逗号隔开；

（2）bins：决定将数据离散化为几段；

（3）desired weight of instances per interval：对等频离散化来说每个间隔所需的实例权重；

（4）findnumbins：如果设置为true，则对于等距离离散化找到最优的段数，对等频离散化无作用；

（5）：ignoreclass：如果设置为true，则过滤器使用之前，没有设置class属性；

（6）invert selection：集属性选择模式。如果设置为false，只有选择（数字）范围内的属性将被离散的，否则只有非选定的属性将被离散；

（6）make binary：如果设置为true，则变为二进制；

（7）use equal frequency:等频离散化，如果设置为true，则使用等频离散化，否则使用等距离离散化。

3、算法执行参数设置：

1）knn:测试样本的最近邻的个数，默认为1，则使用1个最近邻进行分类；

2）cross validate：交叉验证，如果设置为true，则使用交叉验证；

3）debug ：调试，设置为true，则分类器可能在控制台输出另外的信息；默认false；

4）distance weighting：如果设置为true，则使用距离加权；

5）mean squared：均方差，默认为false；

6）nearest neighbour search algorithm：最近邻的搜索算法；

7）window size：窗口大小。

4、单击more option按钮的参数：

（1）output model.：输出基于整个训练集的分类模型，从而模型可以被查看，可视化等。该选项默认选中。

（2）output per-class stats：输出每个class的准确度/反馈率（precision/recall）和正确/错误（true/false）的统计量。该选项默认选中。

（3）output evaluation measures：输出熵估计度量。该选项默认没有选中。

（4）output confusion matrix：输出分类器**结果的混淆矩阵。该选项默认选中。

（5）store predictions for visualization：记录分类器的**结果使得它们能被可视化表示。

《数据挖掘》结课报告概要

数据结构结课报告

结课报告格式

信息检索课结课报告

其他用户还读了