编程技术分享平台

网站首页 > 技术教程 正文

统计模式识别-统计模式识别(统计模型有哪些)

xnh888 2024-11-02 13:59:27 技术教程 35 ℃ 0 评论

统计模式识别方法在嗅觉模拟技术领域,模式识别问题就是将气体传感器阵列的测量空间变换到被测对象的分类或类别空间的问题。由于这个模式空间的变化对识别或辨识结果有很大的影响,所以模式识别算法的研究和探讨一直比较活跃,各种模式识别方法层出不穷,有力地推动了嗅觉模拟技术的应用进程。下面介绍几种常用的统计模式识别方法。统计模式识别概述统计方法是一种出现较早、比较成熟的方法。首先将待识别的对象数字化,转化为适合计算机处理的数字信息。一个模式往往需要大量的信息来表示。许多模式识别系统在数字化环节之后还要进行预处理,去除混杂的干扰信息,减少一定的变形和扭曲。紧接着就是特征提取,即从数字化或预处理后的输入模式中提取一组特征。 所谓特征,就是对于一般的形变和扭曲保持不变或几乎不变的、包含尽可能少的冗余信息的选定度量。特征提取过程将输入模式从对象空间映射到特征空间,此时模式可以用特征空间中的一个点或一个特征向量来表示。这种映射不仅压缩了信息量,而且使分类更加容易。在决策理论方法中,特征提取起着重要作用,但并没有普遍的理论指导,我们只能通过分析具体的识别对象来决定选择哪些特征。特征提取之后,就可以进行分类,即从特征空间映射到决策空间。

为此,引入了判别函数,从特征向量中计算出各类别对应的判别函数值,通过比较判别函数值进行分类。统计模式识别的技术理论比较完备,方法也很多,通常比较有效,现已形成完整的体系。方法虽然很多,但从根本上讲,都是利用各类别的分布特性,即直接利用各类别的概率密度函数、后验概率等,或隐含地利用上述概念进行识别。其中,基本的技术有聚类分析、判别类域代数接口法、统计决策法、最近邻法等。聚类分析利用待分类模式间的“相似性”进行分类,相似度大的归为一类,相似度小的归为另一类。在分类过程中,不断计算各类别的中心,将某一待分类模式与各类别中心的距离作为其分类的依据。 这其实隐含地用到了一定设定下的概率分布的概念,因为在常见的概率密度函数中,越靠近期望值的点的概率密度值越大。该类方法的另一种技巧是依据待分类模式与已识别类别模式的距离来确定其判别性,其实也在一定程度上利用了相关概念。在判别域接口方法中,利用已知类别的训练样本生成判别函数,相当于学习或训练,将待分类模式代入判别函数后得到的正向结果来确定判别函数。判别函数提供了两个判别域之间的接口,也相当于在一定条件下两个概率函数之间的差值。在判断中,依据一定准则下的概率进行各种判断,这些判断在一定意义上可以产生最佳结果。

这些决策需要利用各因素的概率密度函数,即第一个概率或最后一个概率。可以通过估计未知概率密度函数中的参数,也可以通过近似未知概率密度函数来估计。在最近邻法中,未知概率密度函数的参数是根据待分析模型的一个或k个近邻模型来估计的。主成分分析是一种把握事物主要矛盾的分析方法,也是一种古老的多元分析技术,它可以从多变量的事物中分析出主要的影响因素,揭示事物的本质,对复杂的事物进行改造。计算主成分的目的是将高级数据投影到低级数据。确定n个量的m个观测值,形成n×m的数据矩阵,其中n通常大于1。对于由多个量描述的复杂事物,人们能否把握事物的主要方面进行重点分析?如果事物的主要方面很好地体现在几个主要量中,我们只需分离出几个量进行分析即可。 但一般情况下,相关量是不能直接找到的,只能利用原量的性质来表示事物的主要方面。PCA是一种分析方法,其目的是找到r(rn)个反映事物主要特征与原数据矩阵模量的新量,每个新量都是原量的组合,体现原量的综合效应,具有一定的蕴涵意义。

r个新量称为“主成分”,它们能在很大程度上反映原来n个量的影响,而且这些新量之间互不相关、正交。通过主成分分析,利用数据空间在低级空间中直接表达多变量数据的特征。例如,将多个点、多种条件下的基因表达数据(N)表示为空间中的一个点,即数据个数由RN减少到R3。PCA的算法如下:1.计算数据矩阵X的方差矩。2.计算方差矩的特征,并按降序排列,如1.计算每个特征的特征向量u1,…,u2?,并作出相应的主成分分析。 4、按下列公式计算某一特征值的贡献率:ii100%pjj1根据各特征值贡献率的大小,选取所需的第一主轴、第二主轴,再选取第m主轴,用下列公式计算样本数据矩阵X的第i个主成分Yi:YiuiTX,i1,2,…,m。应用时一般取累计贡献率在80%以上为佳。最近邻法KNN方法又称K最近邻法,是模式识别的标准算法之一,属于有监督(或有指导)模式识别方法。它的基本思想是先在多维空间中描述已知类别或级别的样本点,再在同一多维空间中描述待分类的未知样本点。

考察未知样本点的K个最近邻居(K为奇数正数,如1、3、5、7等)。如果在最近邻居中,某一类别或某一级别的样本点最多,则可以判断该未知样本点为该类别或级别的点。在多维空间中,各样本点之间的距离通常用欧氏距离描述:n1d(x,y)(xi2yi)2i1式中,d(x,y)为未知类别(或级别)样本点x到已知类别(或级别)样本点y的欧氏距离;n为多维空间的维数;xi为x的第i维分量;yi为y的第i维分量。 有时为了计算方便,也采用绝对距离来描述:nd(x,y)xiyii1,当然也可以采用其他距离或度量来描述多维空间中两个样本点之间的距离(例如马哈拉诺比斯距离)。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表