网站首页 > 技术教程正文

模式识别与机器学习笔记-笔记本识别器是什么

xnh888 2024-11-02 14:00:29 技术教程 77 ℃ 0 评论

线性模型

多项式函数 y(x,w) 是 x 的非线性函数，而 x 是系数 w 的线性函数。

像多项式函数这样满足线性关系且参数未知的函数称为线性模型。

辨别是否是线性模型，主要看乘法公式中自变量x前的系数w，x只受一个w的影响。

系数的数值可以通过调节多项式函数来拟合训练数据来确定，这是通过最小化误差函数来实现的。通常使用均方误差。

因子1/2是为了方便后续计算

我们可以通过选择 w 来解决曲线拟合问题，使得 E(w) 尽可能小。由于误差函数是系数 w 的二次函数，而导数是 w 的线性函数，因此误差函数的最小值具有唯一解

均方根 (RMS) 误差

除以 N 使我们能够在相同基础上比较不同大小的数据集，而平方根确保 E 和目标变量 t 使用相同的比例和单位来衡量。

过度拟合

对于较大的M值，多项式会过度调整，导致多项式被调整以匹配目标值的随机噪声。

对于给定的模型复杂度，随着数据集大小的增加，过度拟合问题变得不那么严重。通过使用 M = 9 多项式最小化 N = 15 个数据点（左）和 N = 100 个数据点（右）的平方和误差函数获得的解决方案。我们看到，增加数据集的大小可以减少过度拟合问题。

根据训练集的大小来限制参数的数量并不是一个好主意。根据要解决的问题的复杂性来选择模型的复杂性似乎更合理。我们将看到，用于查找模型参数的最小二乘法代表最大似然的一个特例，而过拟合问题可以理解为最大似然的一个一般性质。可以使用贝叶斯方法（稍后考虑）来避免过拟合问题

控制过度拟合的一种常用技术是正则化。该技术涉及在误差函数中添加惩罚项，以使系数不会达到非常大的值。在最简单的形式中，该惩罚项采用所有系数平方和的形式。这导致了误差函数的修改形式

系数 λ 控制正则化项相对于误差平方和项的重要性。请注意，通常从正则化项中省略系数 w0，因为包括 w0 会使结果依赖于目标变量的原点选择。上面的误差函数也可以通过分析最小化。这类技术在统计文献中被称为收缩方法，因为它们会降低系数的值。二次正则化项的一个特例称为岭回归（Hoerl 和 Kennard，1970 年）。在神经网络中，这种方法称为权重衰减。

正则化

随着λ的增加，系数逐渐减小。

到目前为止，我们对多项式拟合的讨论主要依赖于直觉。现在我们将寻找一种更正式的方法来解决模式识别问题。我们将使用概率论中的方法。

上一篇： CrimsonEDR:一款恶意软件模式识别与EDR策略评估工具
下一篇：如何用新模式识别和培养领导人才?

网站首页 > 技术教程正文

模式识别与机器学习笔记-笔记本识别器是什么

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

模式识别与机器学习笔记-笔记本识别器是什么

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: