模式识别4次作业汇总

发布 2021-03-07 07:37:28 阅读 6030

北京工商大学。

2024年秋季学期)

课程名称:模式识别。

专业班级:计研141班。

学生姓名:董文菲刘倩

指导教师:于重重。

成绩:2024年1月20日。

第一次课的作业。

1. 在matlab 环境下,利用第一题中给了matlab程序,尝试声音识别过程,并把程序流程图画出。

解:程序实现了识别“kiss”与“love”两个声音的界面图。程序流程图如下:

2. 运行**。

上的j**a applet ,了解声音识别的过程。

解:智能对话系统的测试点如下图所示,该智能对话系统可以通过语音交互获取信息,控制娱乐设备等智能应用。情感识别的构成如下图:

情感识别依赖于先进的音频参数化技术,利用高斯混合模型训练情绪识别模型。目前负面情绪的识别得到了很好的结果。

3. 选择鸢尾花数据集(iris,网上**),并尽可能多地使用《数据挖掘导论第三章》介绍的不同的可视化技术完成数据预处理(可参看第三章资料中的辅助ppt),形成报告。文献注释和该书**提供了可视化软件的线索。

解:(1)分类。

选择朴素贝叶斯分类器算法,训练选项选择交叉验证,即把数据集分成若干份,1份作为验证集,其余部分作为训练集合。这样的方法保证了数据集的所有元素都被验证过。这里把数据集分为10份来进行训练。

分类器运行的信息,分类器训练的结果,分类器验证验证的结果、准确性计算等信息如下:

visualize信息图,3种类别用不同颜色表示出来。可以从图中看出哪些属性的组合具有较好的区分度。

2)离散化(discretize):

类和分别进行监督和无监督的数值属性的离散化,用来离散数据集中的一些数值属性到分类属性。

3)规范化(nomalize):

类规范化给定数据集中的所有数值属性值,类属性除外。结果值默认在区间[0,1],但是利用缩放和平移参数,我们能将数值属性值规范到任何区间。如:

但scale=2.0,translation=-1.0时,你能将属性值规范到区间[-1,+1]。

4)标准化(standardize):

类标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。

第二次课的作业。

解:属性有四种类型:标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。

1)众数。一组数据**现次数最多的数据就是这组数据的众数。

2)x2检验。

亦称卡方检验。统计学中假设检验的方式之一。x是一个希腊字母,x2可读音为卡方,所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验,在社会统计中应用非常广泛。

卡方检验的步骤一般为:

1)建立假设,确定显著水平a与自由度df、查x2值表得到否定域的临界值;

2)由样本资料计算x2值;

3)将计算所得的x2值与临界x2值(负值都取绝对值)作比较,若计算值大于临界值,则否定ⅱ0;反之,则承认ⅱ0。

计算卡方值的公式一般可表示为:

x2=∑[fo—fc)2/fc]

式中:fo表示实际所得的次数,fc表示由假设而定的理论次数,∑为加总符号。 x2检验对于定类与定类或定类与定序变量之间的相关检验应用较多。

例:用卡方检验拟合优度:

h,p,st] =chi2gof(bins,'ctrs',bins,..

frequency',obscounts, .

expected',expcounts)

bin:有n组数值则:bin=0:(n-1);

obscounts:观测值。

expcounts:期望值。

h,p,st:返回值。

3)符号检验。

符号检验法:是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。

符号检验与参数检验中相关样本显著性t检验相对应,当资料不满足参数检验条件时,可采用此法来检验两相关样本的差异显著性。

根据符号检验判断差异显著性时也要查表找出相应的临界值。但特别应注意的是在某一显著性水平下,实得的r值大于表中r的临界值时,表示差异不显著,这一点与参数检验时的统计量和临界值的判断结果不同。

4)均值。m = mean(a)

返回沿数组中不同维的元素的平均值。

如果a是一个向量,mean(a)返回a中元素的平均值。

如果a是一个矩阵,mean(a)将中的各列视为向量,把矩阵中的每列看成一个向量,返回一个包含每一列所有元素的平均值的行向量。 如果a是一个多元数组,mean(a)将数组中第一个非单一维的值看成一个向量,返回每个向量的平均值。

例:5)标准差(standard deviation)

在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。标准差也被称为标准偏差,或者实验标准差,公式为:

6)皮尔逊相关。

皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示无关,-1 表示完全负相关。

7)几何平均数。

几何平均数是求一组数值的平均数的方法中的一种。适用于对比率数据的平均,并主要用于计算数据平均增长(变化)率。n个观察值连乘积的n次方根就是几何平均数。

根据资料的条件不同,几何平均数分为加权和不加权之分。设一组数据为x1,x2,..xn,且大于0,则几何平均数xg为:

xg=√∏xi,i=1,2,..n

8)算数平均。

算术平均数是加权平均数的一种特殊形式(特殊在各项的权重相等)。在实际问题中,当各项权重不相等时,计算平均数时就要采用加权平均数;当各项权相等时,计算平均数就要采用算数平均数。

9)调和平均。

调和平均数(harmonic **erage)又称倒数平均数,是总体各统计变量倒数的算术平均数的倒数。简单调和平均数是算术平均数的变形,它的计算公式如下:

2. 以dimensionality reduction为关键词,做一个简单的文献综述(1000-),总结一下你理解的最近常用的dimensionality reduction。

数据降维方法综述。

在科学研究和工程实际中,很多大数据集具有高维数的特点。如:

图像分析,计算机视觉,**属性,三维模型的分类与检索等。这些丰富的数据资源在给人们带来便利的同时也带来了一大堆的难题,例如信息过量、难以处理、有价值的信息淹没在海量数据中、数据难以取舍等等。因此,如何对这些丰富的数据资源进行有效的分析,挖掘出数据中蕴含的有用信息己经成为目前的研究者和技术专家所面临的共挑战。

为了解决这一问题,可以首先将数据降到低维空间,然后利用得到的低维特征进行既定的学习或者挖掘任务。有效的数据降维技术(dimensionalityreduction)能够探索出原始数据的内在结构和联系,不仅可以消除数据间的冗余,以简化数据,提高计算效率,还能够大大改善数据的可理解性,提高学习算法的精度。

数据降维的方法可以分为线性降维技术和非线性降维技术。线性降维技术通常假设数据集采样自一个全局线性的高维空间,即构成数据的各变量之间是独立无关的。如果所面临的数据确实具有全局线性的结构,或者在一定程度上可以近似为全局线性时,这些方法能够有效地学习出其线性结构,得到数据紧致的低维表示。

常用的比如主成分分析(pca: principle component analysis),独立成分分析(ica: independent component analysis ),线性判别分析(lda:

linear discriminant analysis )。其它如因子分析,多维尺度变换、典型相关分析等。

然而在现实中所获取的许多数据其各个属性间常常是强相关的,呈现出高度的非线性,例如文本数据、图像数据、语音数据以及**数据等。这些数据都具有难以获知的复杂结构,此时,采用线性方法就无法得到理想的效果。为了解决这一问题,也提出了许多非线性降维算法。

如基于核思想的降维方法:核主成分分析(kpca),核独立成分分析(kica),核fisher判别分析(kfda)。另如基于流形学习的方法:

局部线性嵌入(lle),等距映射(isomap)。

阅读文献比较中发现现有降维方法存在以下有待解决的问题:1、现有的非线性降维方法对于个别的人造数据效果很好,但对于现实数据往往并不优于传统的线性方法,因而要进一步研究这些非线性降维。

方法使其得到最大程度的改进;2、流形学习的提出为数据降维提供了非常有利的框架,但它们大多为局部方法,局部方法的一个很大的缺陷就是受噪声影响大,如何减少噪声的干扰、提高算法的鲁棒性一直以来都是研究的方向;3、现有降维方法不具有增值能力,对动态增加的观测数据点不能快速明确地映射到低维空间,学习改进增量算法具有一定的研究价值。

3. 特征子集选择和特征生成的方法是否一样?你说说你的理解。

解:不一样。

1)特征生成是选择事物所特有的性质。

特征生成的思路如下:

时域、频域、时频联合。

相关系数、fft、dct、w**elet、gabor

统计、结构、混合。

直方图、属性‐关系图。

底层、中层、高层。

颜色、形状、纹理、梯度、语义。

模型。 arma、lpc

2)特征选择也叫特征子集选择 ( fss , feature subset selection ) 是指从已有的m个特征(feature)中选择n个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程。

特征子集产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(complete),启发式搜索(heuristic),随机搜索(random) 3大类,如下图1所示。

模式识别作业

6.题目 fisher分类和基于核的fisher分类的设计与实现研究。具体内容 1.简述fisher分类和基于核的fisher分类的算法原理 2.举出实例 3.用matlab软件编写程序实现 4.分析实验结果。fisher分类和基于核的fisher分类的设计与实现研究。1 fisher分类和基于核的...

模式识别作业

模式识别课程matlab程序作业。模式识别贝叶斯决策 正常状态细胞p 1 0.9,异常状态细胞p 2 0.1,类条件概率密度分别为p x 1 n 0,1 p x 2 n 0.2,1.5 现有一待识别细胞,其观察值为0.2,用matlab写出程序对该细胞进行分类。编写程序如下 close all cl...

模式识别作业

感知器训练算法。在设计贝叶斯分类器时需要设法获取样本统计分布的资料,应知道先验概率及类分布概率密度函数等。然而,在样本数不充足条件下要获取准确的统计分布是很困难的。这样,可以考虑另外一种分类器设计方法,即根据训练样本集提供的信息,直接进行分类器设计。下面实验是针对线性可分情况下的感知器算法。实验所用...