网站首页 > 技术教程 正文
《“模式识别概论”第五章.ppt》由会员分享,可在线阅读,更多相关《“模式识别概论”第五章.ppt(70页珍藏版)》请文库网搜索。
1.第五章 概率密度函数估计第五章 概率密度函数估计5.1参数估计的基本概念参数估计的基本概念5.2概率密度函数的参数估计概率密度函数的参数估计5.3概率密度函数的非参数估计概率密度函数的非参数估计第五章 概率密度函数估计第四章介绍了几种经典的统计分类决策规则,这些规则都假设先验概率P(i)和类条件概率密度p(x|i)已知,但很多时候只能利用有限个样本,而p(x|i)和P(i)未知,需要根据现有的样本对参数进行估计,然后将估计值作为真实值。 因此,在统计分类决策中,分类器设计过程分为两步:利用统计推断中的估计理论,基于样本集估计p(x|i)和P(i),分别记为和;然后估计的
2.测度并代入贝叶斯分类决策规则,完成分类器设计。这样的分类器设计过程称为基于样本的两步贝叶斯分类决策。 第五章 概率密度函数估计 当然,基于样本的两步贝叶斯分类器的性能和理论上的贝叶斯分类器有所不同,人们希望当样本个数为N时,基于样本的分类器能够收敛??到理论结果。其实,利用统计学中估计量的性质,只要能证明当N时,和分别收敛到p(x|i)和P(i)。 根据概率密度函数形式是否已知,概率密度函数估计分为参数估计和非参数估计。 第五章 概率密度函数估计 (1)参数估计;当概率密度函数形式已知,但其某些参数未知时,利用样本集对概率密度函数的某些参数进行估计。 例如,如果 p(x|i) 是均值 mi,则协方差
3.若差分矩阵为Ci的正态分布,那么我们只需要估计mi和Ci即可。 参数估计的方法很多,大致可以分为确定性参数估计方法和随机性参数估计方法。确定性参数估计方法把参数看作是确定的、未知的,典型的方法是最大似然估计。随机参数估计方法把未知参数看作是具有一定分布的随机变量,典型的方法是贝叶斯估计。 第五章 概率密度函数估计 (2) 非参数估计;当不知道概率密度函数形式时,直接利用样本推断概率密度函数。常用的非参数估计方法有Parzen窗法和kN-最近邻法。 本章主要讨论概率密度函数的参数估计和非参数估计方法。 第五章 概率密度函数估计 5.1 参数估计的基本概念 参数估计的基本概念 参数估计是统计推断的基本问题之一。在讨论具体问题之前,我们先
4.介绍参数估计的几个基本概念。 (1)统计学:设观测样本为x1,x2,xN,统计量f(x1,x2,xN)是x1,x2,xN的(可测)函数,并且与任何未知参数无关,统计量的概率分布称为抽样分布。 (2)参数空间:未知参数所有允许值的集合称为参数空间,记为。第5章概率密度函数估计 (3)点估计、估计量和估计值:点估计是对未知参数的单一估计,即构造一个统计量作为该参数的估计,在统计学中称为估计量。把样本的观测值代入统计量f,可得到一个具体值,在统计学中称为估计值。 (4)区间估计:利用抽样分布估计参数可能所在的区间,即要求区间d1,d2作为可能取值范围的估计值。这个区间称为置信区间。
5.这种估计叫做区间估计。 第五章 概率密度函数估计 本章要求对概率密度函数的某些参数进行估计,属于点估计问题。评价一个估计量的“优劣”,不能单纯用从单次抽样结果得到的估计值与参数真值之间的偏差来判断,而必须从均值和方差的角度来分析。为了表示这种偏差,统计学中对估计量的性质作了许多定义。在介绍常用的参数估计方法的同时,我们将进一步研究估计量的性质。 第五章 概率密度函数估计 5.2 概率密度函数的参数估计 概率密度函数的参数估计 5.2.1 最大似然估计 最大似然估计 设第i类概率密度函数具有一定的函数形式, 为该函数的一个未知参数或参数集。 最大似然估计是把一个确定的(非随机的)未知量当作一个估计量。如果从第 i 类
6.独立地抽取N个样本模式,即X(N)=x1,x2,xN。那么这N个样本的联合概率密度函数p(X(N)|)就称为似然函数,记为L()。由于N个样本是独立抽取的,所以第五章概率密度函数估计中的最大似然估计的目的就是找出抽取的样本最有可能来自哪个密度函数。也就是说,我们抽取的这组样本,最有可能来自哪个密度函数(什么值),也就是我们要在参数空间(用 表示)中找出一个能使似然函数最大的值。这里 是 的最大似然估计量,也就是使似然函数最大的估计量。因此, 的最大似然估计量就是下面这个微分方程的解; (5-1)(5-2)第五章概率密度函数估计 为了便于分析,使用似然函数的对数比使用似然函数本身要容易得多。 因为对数
7. 函数是单调递增的,因此最大化对数似然函数的函数也必须最大化似然函数。定义似然函数的对数为H()=lnL()(5-3)此时的最大似然函数估计量就是解。图5.1给出了参数的最大似然估计。 (5-4)第五章 概率密度函数估计 图5.1 最大似然估计示意图 第五章 概率密度函数估计 设第i类的概率密度函数有s个未知参数1,2,s,那么它就是一个s维向量,记为 =1,2,sT 对数似然函数为 H()=lnL()=lnp(x1,x2,xN|1,2,s)(5-5) 在N个样本独立抽取的条件下,公式(5-5)可写为 因此,公式(5-4)可写为 (5-6)第五章 概率密度函数估计 公式(5-7)也可表示为如下的s个微分方程,即 (5-7)(5-
8,8)第五章概率密度函数估计其实,公式(5-8)中的s个联立方程只是最大似然估计的必要条件,如果公式(5-8)的解能够使似然函数值最大化,那么就是最大似然估计。有时候公式(5-8)可能没有唯一解,例如图5.1中有5个解,a、b、d、e虽然都是解,但是它们都不能使似然函数最大化,只能使似然函数最大化。有些情况下,用公式(5-8)求最大值可能不太可行。 例如,假设随机变量x服从均匀分布,但参数1和2未知,则 (5-9) 第五章 概率密度函数估计 设N个样本x1,x2,xN是从总体中独立抽取的,则它的似然函数为 对数似然函数为H()=Nln(21)(5-11) 由公式(5-8)可知: (5-10)(5-12) 第五章 概率密度函数估计 由公式(
9.(5-12)方程组求解的参数1和2至少有一个是无穷大,这是个没有意义的结论。产生这个问题的原因是似然函数在最大值处没有零斜率,所以必须用其他方法求最大值。从方程(5-12)可知,21越小,似然函数就越大。给定一个有N个观测值x1,x2,xN的样本集,如果我们用x表示最小观测值,用x表示最大观测值,显然1不可能大于x,2不可能小于x。因此21的最小可能值为xx,此时的最大似然估计量显然是 (5-13)第五章概率密度函数估计例5.1设一维样本x1,x2,xN都是经独立抽样检验采集的,概率密度函数都服从正态分布。它们的均值和方差2未知。 找到均值和方差的最大似然估计。解决方案假设
10. 1=,2=2,=1,2T,xk的概率密度函数为 样本的似然函数为 第五章概率密度函数估计 对数似然函数为 H() 对1和2的导数为: 由联立方程组 第五章概率密度函数估计 得到均值和方差2的最大似然估计为: 以上结果可以类似地扩展到多元正态分布。 设d维样本x1,x2,xN服从d维正态分布,它们的均值向量m和协方差矩阵C未知,则xk的密度函数为 第五章概率密度函数估计 通过类似推导,可得到均值向量m和协方差矩阵C的最大似然估计为; 第五章 概率密度函数估计 5.2.2 贝叶斯估计与估计与贝叶斯学习 学习 1.贝叶斯估计 估计(BayesEstimate)在第四章统计决策的讨论中,定义了损失函数与平均损失,并根据最
11.小平均损失准则建立了一个决策规则。同样,在参数估计中,也可以引入平均损失的概念。考虑平均损失问题,其中损失函数是把估计值当作真实值的成本。设 取代 引起的损失,对于从第i类中独立抽取的一组样本X(N)=x1,x2,xN,当用作 的估计时,样本X(N)条件下的预期损失为 (5-14)第五章概率密度函数估计 其中是参数空间。考虑X(N)的各种取值,N空间中的期望为 贝叶斯估计的思想是 的估计值应该最小化估计的预期损失。这个使R最小化或等效地取最小值的 的估计称为 的贝叶斯估计量。对于 的不同具体定义,可以得到不同的贝叶斯估计量。 这里我们规定损失函数为二次函数,即平方误差损失函数
12. 数 (5-15) 第五章 概率密度函数估计 (5-16) 下面是求该损失函数的贝叶斯估计量的定理。 定理5.1 如果损失函数是二次函数,即,则的贝叶斯估计量为给定X(N)的条件期望,即 证明 证明 由于贝叶斯估计最小化贝叶斯损失R,因此最小化贝叶斯损失 (5-17) 第五章 概率密度函数估计,等价于最小化被积函数(条件损失)。 且 (5-18) (5-19) 第五章 概率密度函数估计 (5-19) (5-20) 中的交叉项 所以条件损失可以写成 (5-21) 第五章 概率密度函数估计 从公式(5-21)可以看出,条件损失由两项组成;第一项是非负的,与无关;第二项也是非负的,与相关。为了最小化条件损失,可以选择,这个
13.第二项为零,使得条件损失最小化。所以贝叶斯估计量为 利用这个定理,我们可以很容易地求解平方误差损失函数的贝叶斯估计量。步骤如下: (1)确定先验分布p(); (2)从样本集X(N)=x1,x2,xN中,找到样本联合分布p(X(N)|),它是;第五章概率密度函数估计 (3)利用贝叶斯公式找到后验分布 (4)利用定理5.1找到贝叶斯估计量第五章概率密度函数估计 例5.2 假设一维样本集X(N)=x1,x2,xN是从正态分布N(,2)中抽取的样本集,其中均值是未知参数,方差2是已知的。 未知参数是随机参数,其先验分布为 N(0, 20),其中 0 和 20 已知。求贝叶斯估计量。解决方案:二次损失函数的贝叶斯估计量
14.由定理5.1由公式(5-22)可知,首先需要求得的后验分布,由于其先验分布p()已知,利用贝叶斯公式可得(5-22)(5-23)第五章概率密度函数估计,其中是比例因子,只与X(N)有关,与无关。 由于所以 (5-24) 第五章 概率密度函数估计 (5-25) 上式中,所有与 和 无关的因子都包含在因子 和 中,所以p(|X(N)是 的二次函数的指数函数,因此仍为正态密度函数,而p(|X(N)可以写成N(N, 2N),即 (5-26) 第五章 概率密度函数估计 应用待定系数法,令公式(5-25)与公式(5-26)对应系数相等,则可得N和2N; (5-27) 其中(5-28)为样本均值,解公式(5-27)可得: 第五章 概率密度函数估计
15.速率密度函数估计 (5-29) (5-30) 至此,我们已经得到了后验概率密度p(|X(N),这样,我们可以利用公式(5-22)计算贝叶斯估计量,即 第五章 概率密度函数估计 第二章 贝叶斯学习 贝叶斯学习和贝叶斯估计的前提条件相同,但是贝叶斯学习不是概率密度的参数估计。贝叶斯学习意味着在求出未知参数的后验分布后,不再求估计量,而是直接求总体分布p(x|X(N): 其中 (5-31) 第五章 概率密度函数估计 现在我们还需要讨论p(x|X(N)是否收敛到p(x),其中p(x)是x的真实总体分布,它的参数是真实参数。用X(N表示由N个样本组成的样本集,即 X(N)=x1, x2, xN。假设样本
16.它们相互独立。当N1时,有 另外,后验概率与样本个数的关系为 (5-32)第五章概率密度函数估计 (5-33)第五章概率密度函数估计 随着样本个数的增加,可以得到一个密度函数序列p(),p(|x1),p(|x1, x2)。这个过程称为递归贝叶斯方法。 如果密度函数序列收敛到以真实参数为中心的函数,则p(x|X(N)收敛于p(x),这种性质称为贝叶斯学习。第五章 概率密度函数估计在例5.2中,我们得到了后验概率密度p(|X(N),其中N反映对一组样本进行观察后的推断,2N反映这种推断的不确定性。由于2N随着N的增加单调递减,这意味着每增加一个观察样本,都可以降低推断的不确定性。当N增加时,p(|
17.X(N)的峰值会越来越突出,当N为时,它趋近于函数,如图5.2所示。因此,正态分布具有贝叶斯学习的性质。 第五章 概率密度函数估计 图5.2 贝叶斯学习示意图 第五章 概率密度函数估计 在例5.2中得到后验概率密度p(|X(N)后,可以通过下式计算样本x的概率密度函数,即 第五章 概率密度函数估计 第五章 概率密度函数估计 即p(x|X(N)为正态密度函数,其均值为N,方差为,即(5-35) 从公式(5-35)可以看出,贝叶斯学习和贝叶斯估计得到的总体均值是一样的,都是N;贝叶斯学习得到的总体概率密度函数形式与已知形式相同,只是将N替换为2,由于用N替换真实值会带来不确定性的增加,因此方差2增大为。 第五章 概率密度函数估计
18. 概率密度函数估计 3. 最大似然估计,最大似然估计,贝叶斯估计,估计,贝叶斯学习 学习之间的关系 最大似然估计把参数看作是某些未知参数。似然函数定义为 最大似然函数估计就是求使似然函数L()为最大的最大似然估计量。贝叶斯估计把参数看作随机的未知参数,一般有一个先验分布p()。样本经过似然函数p(X(N)|),利用贝叶斯公式把p()转化为后验分布。 第五章 概率密度函数估计p(|X(N)包含了关于的先验信息和样本提供的后验信息,然后利用定理5.1得到贝叶斯估计量,使平方误差损失函数的贝叶斯损失最小化。 贝叶斯估计学习利用的先验分布和样本提供的信息得到后验分布p(|X(N),然后直接
19.接下来,求总体分布。 第五章 概率密度函数估计 5.3 概率密度函数的非参数估计 概率密度函数的非参数估计 上面讨论的参数估计方法都要求知道总体分布的形式。然而很多实际问题并不知道总体分布的形式,或者总体分布不是人们经常遇到的某种典型分布,不能写成某些参数的函数。在这些情况下,为了设计贝叶斯分类器,仍然需要知道总体分布,因此提出了一些直接利用样本估计总体分布的方法,我们称之为总体分布的非参数估计。 第五章 概率密度函数估计 5.3.1 非参数估计的基本原理 非参数估计的基本原理 设样本x的概率密度函数为p(x),则x属于该区域的概率P为 上式表明,概率P是密度函数p(x)的平均形式,P的估计量是估计值p(x)的平均值。设
20. x1, x2, xN 是N个独立抽取的样本,它们的概率密度函数为p(x)。N个样本中有k个属于该区域的概率为 (5-36)(5-37) 其中,k为随机变量,k的数学期望为 第五章概率密度函数估计 k的分布在均值附近有一个陡峭的峰值,这可以被认为是P的一个很好的估计,也是概率密度函数平均值的一个很好的估计。进一步假设p(x)是连续的,且的范围很小,以至于p(x)在上几乎为常数,则有 (5-38)(5-39) 其中,x是中的一点,V是的“体积”。 第五章 概率密度函数估计基于上述分析,p(x)的估计为在公式(5-40)中,若给定,即体积V一定,样本个数N,那么,此时,即公式(5-40)得到概率密度函数p(x
21、)空间平均估计。(5-40)(5-41)第五章 概率密度函数估计要得到概率密度函数p(x)而不是p(x)的空间平均估计,必须让体积V趋近于0。如果样本数N固定,而让V趋近于0,以致其中不包含任何样本,则p(x)0,这个估计毫无意义;或者如果恰好有一个或若干个样本与x重合,则p(x)为无穷大,这也是毫无意义的。实际上,样本数总是有限的,这就要求体积不能任意小,因此得到的密度函数估计依然是一定范围内的平均值。为了估计点x处的密度,构造一个包含x的区域序列1,2。 设t时刻的样本个数为N,N的体积为VN,N中的样本个数为kN,则p(x)pN(x)的估计值为第五章概率密度函数估计若满足
22. 三个条件: (5-42)(5-43)(5-44)(5-45) 则pN(x)收敛于p(x)。第五章 概率密度函数估计以上三个条件表明:当N增大时,N中的样本个数也增大;VN继续减小,使得pN(x)趋于p(x);虽然有大量样本落入区域N,但与样本总数相比,这些样本仍然可以忽略不计。选取满足上述三个条件的区域序列主要有两种方法: (1)Parzen窗方法。 选取一个以x为中心,体积为VN的区域N(例如,计算落入其中的样本个数kN,估计局部密度pN(x)的值)。 (2) kN-最近邻法。选取一个kN值(例如,以x为中心,构造一个体积为VN的区域N,使得N中恰好包含kN个样本,用此时的体积VN估计pN(x)。 第五章
23. 概率密度函数估计 5.3.2 Parzen 窗方法 窗口方法 设x为d维空间中某点,以原点为中心超立方体N,其边长为hN,体积VN为 对于d维空间中任意样本xi,如果向量xxi中各分量的绝对值小于hN/2,则xi属于区域N,否则不属于N。为了计算N中包含的样本个数kN,构造d维空间的窗口函数;(5-46) 第五章 概率密度函数估计 (5-47) 其中u=(u1,u2,ud)。(u)称为Parzen窗函数。 因此样本数kN可表示为 (5-48) 将公式(5-48)代入公式(5-42),可得估计值: (5-49) 第五章 概率密度函数估计 公式(5-49)是Parzen窗法估计的基本表达式,为了使pN(x)成为概率
24.密度函数,即pN(x)非负且其积分为1,要求窗函数满足下面两个条件: (5-50) (5-51) 上面两个式子表明,窗函数本身满足密度函数的要求。 第五章 概率密度函数估计 其实,从式(5-49)可以看出,f(u)的非负性可以保证pN(x)的非负性,进一步证明了pN(x)是概率密度函数。 第五章 概率密度函数估计 所以一个函数只要满足条件(5-50)和(5-51),就可以作为窗函数。 除了上面选取的超立方体窗函数外,还有更一般的形式,以一维窗函数为例,主要有下面三种窗函数。 (1)方波窗函数(如图5.3(a)所示): (2)正态窗函数(如图5-3(b)所示): (3)指数窗函数(如图5-3(b)所示):
25.如图5-3(c)所示: 第五章 概率密度函数估计 图5.3 三个窗口函数 第五章 概率密度函数估计 我们来分析一下窗口宽度hN对pN(x)的影响。 设pN(x)可以写成平均值的形式如下: 由VN=hdN可知hN同时影响qN(x)的幅值和宽度。 如果hN选得很大,则qN(x)的幅值就会很小,这时qN(x)的宽度就很大,只有当xi离x较远时,qN(x-xi)才会与qN(0)有很大差别。 因此,pN(x)变成N个宽度较大的缓变函数的平均值,从而降低了估计的分辨率。 (5-53)(5-54)第五章概率密度函数估计反之,若hN选得很小,qN(x-xi)的峰值就会很大,并出现在x=xi附近,此时pN(x)是N个宽度较大的缓变函数的平均值。
26.以此为中心的尖脉冲的平均值即为原始值,使估计值不稳定。综上所述,hN的选取对pN(x)有很大影响,hN过大,估计值的分辨率过低,反之估计值的统计变异太大。因此,在样本数有限时,需要作适当的折衷;在样本数无限时,可以允许VN随着N的增加而慢慢趋近于零,使得pN(x)收敛于p(x)。第五章概率密度函数估计例5.3设p(x)为均值为零、方差为1的一维正态分布密度,窗函数为正态窗函数:取式中h1为可调参数,考察h1估计的影响。 p(x) pN(x)的估计值为第5章概率密度函数估计当获得一组正态分布的随机样本时,可以计算出pN(x),如图5.4所示。这些结果取决于N和h1。当N=1时,pN(x)
27.它是一个以第一个样本为中心的正态形状的单峰。当N=16时,若h1=0.25,单个样本的影响依然可见;但对于h1=1和h1=4,单个样本的影响就变得模糊了。当样本数没有达到无穷大,且采样存在无规律性时,pN(x)会出现一些无规律的扰动。当N趋向于无穷大时,pN(x)收敛到平滑的正态分布密度曲线。因此,为了得到较为准确的估计,需要大量的样本。 第五章概率密度函数估计 图5.4 单个正态分布的实验结果 第五章概率密度函数估计 例5.4 本例中,(u)和hN与例5.3相同。 假设未知密度是两个均匀分布密度的混合:用Parzen窗口法来估计这个密度函数,如图5.5所示。当N=1时,我们看到的是窗口函数本身;当N=
当N=28、h1=16时,很难分辨出哪种估计更好;当N=256、h1=1时,估计结果比较接近真实分布。 第五章 概率密度函数估计 图5.5 两个均匀分布的实验结果 第五章 概率密度函数估计 从上面两个例子可以看出,非参数估计的优点是它的普遍性:无论是规则分布还是不规则分布,单峰分布还是多峰分布,都可以用这种方法得到概率密度函数估计,而且只要有足够的样本,非参数估计就能收敛到任意复杂的未知密度。非参数估计的缺点是,为了得到满意的结果,所需的样本数比参数估计要多得多,需要大量的计算时间和存储,特别是样本维数较大时,会出现“维数灾难”。 第五章概率密度函数估计5.3.3 kN-最近邻法最近邻法在Parzen窗口估计中,有一个
29.对于有限的n,估计结果对V1的估计值敏感,如果V1的值太小。体积是数据的函数,而不是样品n的数量。假设有n个样品,并且需要估算n个函数p(x),然后确定n个函数。 第5章概率函数估计kn-neartheber方法中的Pn(X)受到约束:可以采取k1的恒定,而KN1。最近的邻居估计还需要大量样本,尤其是当样本尺寸较大时,在示例5.3和5.4中,也将发生“尺寸诅咒” 5.5。
- 上一篇: 模式识别中七种常用回归模型(回归模型的概念)
- 下一篇: 每日一词|figure(每日一词成语)
猜你喜欢
- 2024-11-02 模式识别中七种常用回归模型(回归模型的概念)
- 2024-11-02 识别情绪模式(识别情绪模式对工作有帮助吗)
- 2024-11-02 如何用新模式识别和培养领导人才?
- 2024-11-02 模式识别与机器学习笔记-笔记本识别器是什么
- 2024-11-02 CrimsonEDR:一款恶意软件模式识别与EDR策略评估工具
- 2024-11-02 敌我识别系统,IFF信号特征(敌我识别标识)
- 2024-11-02 模式识别的组织过程通常涉及以下几个步骤: 1
- 2024-11-02 Let's Dance:游戏中的「模式识别」
- 2024-11-02 小白都能看懂的深度学习的模式识别原理介绍
- 2024-11-02 统计模式识别-统计模式识别(统计模型有哪些)
你 发表评论:
欢迎- 最近发表
-
- linux日志文件的管理、备份及日志服务器的搭建
- Linux下挂载windows的共享目录操作方法
- Linux系统中的备份文件命令(linux系统中的备份文件命令有哪些)
- 麒麟KYLINOS|通过不同方法设置用户访问文件及目录权限
- 「Linux笔记」系统目录结构(linux目录的结构及含义)
- linux中修改归属权chown命令和chgrp命令
- 工作日报 2021.10.27 Android-SEAndroid权限问题指南
- Windows和Linux环境下,修改Ollama的模型默认保存路径
- 如何强制用户在 Linux 上下次登录时更改密码?
- 如何删除Linux文件夹中除某些扩展名之外的所有文件?
- 标签列表
-
- 下划线是什么 (87)
- 精美网站 (58)
- qq登录界面 (90)
- nginx 命令 (82)
- nginx .http (73)
- nginx lua (70)
- nginx 重定向 (68)
- Nginx超时 (65)
- nginx 监控 (57)
- odbc (59)
- rar密码破解工具 (62)
- annotation (71)
- 红黑树 (57)
- 智力题 (62)
- php空间申请 (61)
- 按键精灵 注册码 (69)
- 软件测试报告 (59)
- ntcreatefile (64)
- 闪动文字 (56)
- guid (66)
- abap (63)
- mpeg 2 (65)
- column (63)
- dreamweaver教程 (57)
- excel行列转换 (56)
本文暂时没有评论,来添加一个吧(●'◡'●)