模式识别作业

发布 2021-03-07 06:31:28 阅读 4505

6.题目:fisher分类和基于核的fisher分类的设计与实现研究。

具体内容:1.简述fisher分类和基于核的fisher分类的算法原理;

2.举出实例;

3.用matlab软件编写程序实现;

4.分析实验结果。

fisher分类和基于核的fisher分类的设计与实现研究。

1 fisher分类和基于核的fisher分类的算法原理。

1.1 fisher线性判别的算法原理。

fisher判别分析法对样本数据也没什么要求,而且可以弥补距离判别作外延计算时计算量大的问题,一般情况下,其判别的效果也比距离判别更好些。由于fisher判别分析法不需要对样本数据进行检验,而且有一定的正确率,因此在实际中它被广泛的应用。

假设有一集合x包含n个d 维样本x=,其中n1个属于w1类的样本记为x1=,n2个属于w2类的样本记为x2=。,n=1,2,3,…

根据上式从几何上看,如果=1,则每个就是相对应得到方向为w的直线上的投影,w的方向不同,将使样本投影后的分离程度不同,从而直接影响识别效果。

fisher线性判别所要解决的基本问题是找到一个最好的投影方向(如图1所示),使样本在这个方向上的投影能最好,最易于分类。寻找最好投影方向的问题在数学上就是寻找最好的变换向量的问题。因此fisher判别分析的基本思想就是投影,即将k类n维数据投影到某个方向,是组与组间的距离最大,也即采用方差分析的思想。

判别函数的参数向量如下:

在d维x空间:

1)各样本均值向量。

2)样本类内离散度矩阵和各类内离散矩阵。

3)样本间离散度矩阵。

我们最终可得fisher准则函数为:

其希望各类样本内部尽量密集,样本间尽可能分得开些。

图1 fisher线性判别的基本原理。

1.2核f isher 判别分析方法的理论基础。

fisher 判别分析方法是一种典型的线性判别方法。它的基本思路是对原数据系统进行坐标变换, 寻求能将总体尽可能分开的方法, 即采用方差分析的思想。对样本线性分类问题, 传统fisher 判别方法的判别能力得到了普遍认可, 然而对于非线性问题, 线性判别函数无法有效地区分不同特征的样本。

在这种情况下, 构造判别函数可以采用复杂的非线性分布函数, 但在具体实现时, 有很多困难。因此, 可以考虑采用非线性投影方法, 即通过非线性映射把原始数据投影到特征空间中, 然后在特征空间中用线性f isher 判别达到分类目的。但是,若特征空间的维数非常高, 甚至是无限维的空间时, 求解将非常困难。

因此, 针对该问题, 可以引进核函数, 将高维空间的内积计算转化为原空间的内积计算, 这样就可以简化计算。

设是一个原空间到某个特征空间h的非线性映射。它把原空间中的样本点非线性的映射到特征空间中。在h找一个线性fisher判别函数,使下式达到最大。

max,这里w∈h,是fisher判别的解,和是h中的相应矩阵,分别为。

根据再生核理论,在特征空间中任意一个解向量w∈h是特征空间h中训练样本的组合,因而可以找到w的扩展形式:,于是有。

式中定义,是第i类个样本与总体内积和的均值,现在来考虑式(3)中的分子,利用的定义(4)和(8),它可重写为。

式中。再来考虑式(3)中的分母。利用式(7),(6)及式(9)中类似的变换,得到。

式中,其中是第j类的核矩阵,i是单位矩阵,是所有元素为的矩阵。

把式(9)和(10)代入式(3),可得到特征空间f的fisher线性判别,即最大化。

类似于输入空间的算法,这个问题的求解可以通过求矩阵n - 1m的特征值和特征矢量,或者等效地计算得到。则新模式x到w的投影为。

显然,所提出的设置是非适定的。因为要从n个样本中估计n维的协方差结构,而特征空间的维数等于或高于训练样本数目n,因此就有必要利用正则化技术。可以给n加上一个单位阵的倍数,即用矩阵nμ代替矩阵n,来惩罚,或者给n加上一个全核矩阵的倍数来惩罚。

在实际中根据需要选取μ的值。对矩阵做这种变换有如下优点:

1.该方法降低了样本特征值估计的偏差;

2.它会使数值求解更加稳定,μ足够大会变成正定矩阵;

3.方法对进行了正规化,最佳结果具有最小的扩展系数。

在本题中我们采用已知两类三维数据样本点进行训练以达到最佳权值对个待测样本点进行聚类,实现聚类。其基本思想是将三维空间中的样本投影到一条最易于分类的投影线上,再进行分类。已知两类数据样本点sample1,sample2,以及待测样本点yb(其具体数据请见主程序)。

在下节中我们讲述如何通过mathlab软件实现fisher线性判别准则设计分类器的**。

2 matlab软件实现。

2.1 **步骤。

1.建立数据源,我们这里运用的是三维空间。两类数据样本进行训练达到最佳的权值。

将x1,y1,z1构成第一类样本点sample1。同理,将x2,y2,z2构成样本点sample2;

2.给出两类数据线性可分的先验概率,并给出一组待测数据yb,判断它分别属于哪一类;

3.求出各样本的均值向量mi;

4.样本类内离散度矩阵si与总类内离散度矩阵sw,并确定最佳w值,并利用先验知识确定分界阈值点;

5.根据最佳w值,计算各类的各点在w上的投影向量;

6.求解待测样本点的投影,再对样本点进行判决;并将其判为第一类或第二类的样本点用不同颜色和符号标出其位置及投影点。(见**截图)

2.2 源程序。

2.2.1主程序。

基于fisher准则线性分类器设计。

close all

clear all

echo off

先验概率。

p1=0.6; %第一类数据。

p2=0.4; %第二类数据。

已知样本。

x1=[0.2331 1.5207 0.6499 0.7757 1.0524 1.1974...

y1=[2.3385 2.1946 1.6730 1.6365 1.7844 2.0155...

模式识别作业

模式识别课程matlab程序作业。模式识别贝叶斯决策 正常状态细胞p 1 0.9,异常状态细胞p 2 0.1,类条件概率密度分别为p x 1 n 0,1 p x 2 n 0.2,1.5 现有一待识别细胞,其观察值为0.2,用matlab写出程序对该细胞进行分类。编写程序如下 close all cl...

模式识别作业

感知器训练算法。在设计贝叶斯分类器时需要设法获取样本统计分布的资料,应知道先验概率及类分布概率密度函数等。然而,在样本数不充足条件下要获取准确的统计分布是很困难的。这样,可以考虑另外一种分类器设计方法,即根据训练样本集提供的信息,直接进行分类器设计。下面实验是针对线性可分情况下的感知器算法。实验所用...

模式识别作业

题目 lsme分类算法原理及实现步骤。学院 通信学院 专业 自动化 学号 52110822 姓名 郑智鹏。lsme算法的基本原理。lmse算法是对准则函数引进最小均方误差这一条件而建立起来的,这种算法的主要特点是在训练过程中判定训练集是否线性可分,从而对结果的收敛性做出判断。此方法也称为ho kas...