-基于k-最近邻分类方法的连衣裙属性数据集的研究报告。
(2013--2014 学年第二学期)
学院。专业。
班级:学号。
姓名。指导教师。
二〇一四年五月二十四日。
1、研究目的与意义。
介绍所选数据反应的主题思想及其研究目的与意义)
1、目的。(1)熟悉weka软件环境;
(2)掌握数据挖掘分类模型学习方法中的k-最近邻分类方法;
(3)在weka中以“dress attribute dataset”为例,掌握k-最近邻分类算法的相关方法;
(4)取不同的k值,采用不同的**方法,观察结果,达到是否推荐某款连衣裙的目的,为企业未来的规划发展做出依据。
2、意义。此数据集共有14个属性,500个实例,包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况,按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发展市场的扩大及企业的发展战略具有重要意义。
二、技术支持。
介绍用来进行数据挖掘、数据分析的方法及原理)
1、原理:k-最近邻分类算法是一种基于实例的学习方法,不需要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用具体的训练样本进行**,通过在训练集中找出测试集的k个最近邻,来**估计测试集的类标号;
2、方法:k-最近邻方法是消极学习方法的典型代表,其算法的关键技术是搜索模式空间,该方法首先找出最近邻即与测试样本相对接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本的类标号。
三、数据处理及操作过程。
一)数据预处理方法。
1、“remove”属性列:数据集中属性“dress_id”对此实验来说为无意义的属性,因此在“attributes”选项中勾选属性“dress_id”并单击“remove”,将该属性列去除,并保存新的数据集;
2、离散化预处理:需要对数值型的属性进行离散化,该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型,因此只对这两个属性离散化。
recommendation”属性只有2个取值:0,1,因此用文本编辑器“ultra edit”或者写字板打开数据集并直接修改“dress attribute data 文件,把 “@attribute recommendation numeric ”改为 “ attribute recommendation ”,并保存;在“explorer”中重新打开“dress attribute data 选中“recommendation”属性后,右方的属性摘要中“type”值变为“nominal”。
在过滤器filter中单击“choose”,出现树形图,单击“weka”--filters”--unsupervised”--attribute”--discretize”,点击“choose”右边的文本框进行参数设置,把“attribute indices”右边改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它参数不更改,点“ok”回到“explorer”,单击“apply”离散化后的数据如下所示:
3、缺失值预处理:在过滤器filter中单击“choose”,出现树形图,单击“weka”--filters”--unsupervised”--attribute”--replace missing values”,单击“apply”。在weka中可以看出该数据集中不存在缺失值,因此不必进行缺失值的预处理。
二)参数设置。
要求介绍每个参数的意义、取值范围、调整依据及最终的设置)
1、数据集属性及其取值:
1)dress_id numeric:货号。
2)style:风格。
3)price:**
4)rating:等级numeric
5)size:尺寸。
6)season:季节。
7)neck line:领口。
8)sleeve length:袖长。
9)waise line:腰围
10)material:材料。
11)fabric type:布料类型。
12)decoration:装饰。
13)pattern type:图案类型
14)recommendation:是否推荐 numeric
2、离散化预处理参数设置:
(1)attribute indices:属性下标。选择要离散化的属性,将其下标号以逗号隔开;
(2)bins:决定将数据离散化为几段;
(3)desired weight of instances per interval:对等频离散化来说每个间隔所需的实例权重;
(4)findnumbins:如果设置为true,则对于等距离离散化找到最优的段数,对等频离散化无作用;
(5):ignoreclass:如果设置为true,则过滤器使用之前,没有设置class属性;
(6)invert selection:集属性选择模式。如果设置为false,只有选择(数字)范围内的属性将被离散的,否则只有非选定的属性将被离散;
(6)make binary:如果设置为true,则变为二进制;
(7)use equal frequency:等频离散化,如果设置为true,则使用等频离散化,否则使用等距离离散化。
3、算法执行参数设置:
1)knn:测试样本的最近邻的个数,默认为1,则使用1个最近邻进行分类;
2)cross validate:交叉验证,如果设置为true,则使用交叉验证;
3)debug :调试,设置为true,则分类器可能在控制台输出另外的信息;默认false;
4)distance weighting:如果设置为true,则使用距离加权;
5)mean squared:均方差,默认为false;
6)nearest neighbour search algorithm:最近邻的搜索算法;
7)window size:窗口大小。
4、单击more option按钮的参数:
(1)output model.:输出基于整个训练集的分类模型,从而模型可以被查看,可视化等。该选项默认选中。
(2)output per-class stats:输出每个class的准确度/反馈率(precision/recall)和正确/错误(true/false)的统计量。该选项默认选中。
(3)output evaluation measures: 输出熵估计度量。该选项默认没有选中。
(4)output confusion matrix:输出分类器**结果的混淆矩阵。该选项默认选中。
(5)store predictions for visualization:记录分类器的**结果使得它们能被可视化表示。
数据结构结课报告
t1123 03 又是一年总结时。记得高中的时候,老师总强调学习要学会总结,通过总结,才能知道自己学到了什么,什么还没有学到 通过总结,才能提高自己!这学期也接近尾声了,回过头看看,通过这学期的学习,对 数据结构与程序构建 这门课,还是有不少收获的。其实时间不是问题。记得刚开始的时候,我对这门课时一...
结课报告格式
标题 黑体二号 副标题 楷体,四号 若有 请留出一个汉字的空间,下同。1 xbrl的发展现状 可作为正文第1章标题,用小2号黑体,并留出上下间距为 段前1行,段后1行 5号宋体,20磅行距,首行缩进两字 标题 黑体二号 副标题 楷体,四号 若有 1 xbrl的发展现状 可作为正文第1章标题,用小2号...
信息检索课结课报告
2012 2013学年第一学期。1 检索课题名称 2 分析课题 光学,是研究光的行为和性质,以及光和物质相互作用的物理学科。传统的光学只研究可见光,现代光学已扩展到全波段电磁波的研究。我们所学的专业与它很有关联,所以希望搜集更多的信息来更好的了解它和学习它。1检索类型 文献检索,检索,2查找年代 2...