【系统辨识】最小二乘估计

本文由最小二乘原理引入到最小二乘估计。最小二乘法是一种常用的数学方法，用于解决数据拟合问题。在数据拟合问题中，我们需要找到一条曲线或者一个平面来拟合给定的数据。最小二乘法的主要思想是寻找一个拟合函数，使得该函数与所有观测值之间的差的平方和最小。最小二乘法的背景可以追溯到18世纪欧洲的天文学家和数学家吕格朗日，他首次利用最小二乘法求解天体轨迹问题。此后，最小二乘法被广泛应用于数据拟合、统计分析、信号

麦斯威尔逊

5168人浏览 · 2023-10-09 16:24:58

麦斯威尔逊 · 2023-10-09 16:24:58 发布

系列文章目录

【系统辨识】最小二乘估计
【系统辨识】递推最小二乘法的推导及matlab仿真
 【系统辨识】最小二乘辨识模型的建立

前言

最小二乘法是一种常用的数学方法，用于解决数据拟合问题。在数据拟合问题中，我们需要找到一条曲线或者一个平面来拟合给定的数据。最小二乘法的主要思想是寻找一个拟合函数，使得该函数与所有观测值之间的差的平方和最小。最小二乘法的背景可以追溯到18世纪欧洲的天文学家和数学家吕格朗日，他首次利用最小二乘法求解天体轨迹问题。此后，最小二乘法被广泛应用于数据拟合、统计分析、信号处理、图像处理等领域，并成为现代数学和应用数学中不可或缺的工具。

最小二乘原理是指在数学上寻找误差平方和最小的解决方案，即将所有观测值与拟合值之间的差的平方和最小化。这个原理在统计学中被广泛应用，用于确定回归模型中的系数。

最小二乘估计是根据最小二乘原理，通过具体的计算方法来求解回归模型中的系数，是一种常用的参数估计方法。最小二乘估计可以用于线性回归、多项式回归、非线性回归等各种回归模型的参数估计。它可以通过求解矩阵方程或者最小化目标函数的方法来得到系数的估计值。因此，最小二乘估计是通过具体的计算方法来实现最小二乘原理的应用。

本文由最小二乘原理引入到最小二乘估计

一、最小二乘原理

1.一维例子

假设测量某个物体的长度， $n$ 个人测得的长度分别为 $x_1,x_2,...x_n$ ,然后通过这 $n$ 个数据得到该物体最接近真实值的长度，可以按照统计学原理，定义误差平方和：
$f(x)=(x_1-x)^2+(x_2-x)^2+...+(x_n-x)^2.$ 为了使其误差平方和最小，及求 $f (x)$ 的最小值，令 $f (x)$ 的导数为零，得到 $f'(x)=-2(x_1-x)-2(x_2-x)-...-2(x_n-x)=0.$ 求解可以得到 $x=\frac{x_1+x_2+...+x_n}{n}=\bar{x}.$ 由于 $f^{''} (x) = 2 n > 0$ ,可知 $f(\bar{x})$ 是误差函数 $f (x)$ 的最小值。这就是最小二乘的基本原理。

2.二维例子

现有 $n$ 个点 $x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ 很接近某条直线。假设这条待定的直线为 $y = k x + b .$
二维图例点 $x_1,y_1),(x_2,y_2),...,(x_n,y_n)$ 不可能都满足 $y = k x + b$ ,因此，目标是估计参数 $a, b$ ，使得每个点到该直线的距离和为最小值，由于点到直线的距离公式计算复杂，在这里采用点到直线的纵坐标差 $\varepsilon$ ，方便计算。
$\varepsilon_j =y_j-kx_j-b$
目标函数为
$J_1(k,b)=\sum_{j=1}^{n}\varepsilon _j^2=(y_1-kx_1-b)^2+(y_2-kx_2-b)^2+...+(y_n-kx_n-b)^2$
现在要使目标函数 $J_1(k,b)$ 最小，这就构成了最小二乘拟合问题。
分别对 $k$ 和 $b$ 求偏导，并令其为零得到
$\begin{aligned}\frac{\partial J_1(k,b)}{\partial k}&=-2x_1(y_1-kx_1-b)-2x_2(y_2-kx_2-b)-...-2x_n(y_n-kx_n-b)=0,\\ \frac{\partial J_1(k,b)}{\partial b}&=-2(y_1-kx_1-b)-2(y_2-kx_2-b)-...-2(y_n-kx_n-b)=0.\end{aligned}$ 或
$\begin{aligned}(\sum_{j=1}^{n}x_j^2)k+(\sum_{j=1}^{n}x_j)b&=\sum_{j=1}^{n}x_jy_j ,\\ (\sum_{j=1}^{n}x_j)k+nb&=\sum_{j=1}^{n}y_j .\end{aligned}$ 因此求得的参数拟合值为
$\begin{bmatrix} k \\ b \end{bmatrix}=\begin{bmatrix} \sum_{j=1}^{n}x_j^2 & \sum_{j=1}^{n}x_j\\ \sum_{j=1}^{n}x_j & n \end{bmatrix}^{-1}\begin{bmatrix} \sum_{j=1}^{n}x_jy_j \\ \sum_{j=1}^{n}y_j \end{bmatrix}.$

3.最小二乘估计

为了处理高维（大于两个未知参数）线性拟合问题，定义由观测数据构成的信息向量 $φj \pmb{\varphi_j}$ 和拟合模型的参数向量 $\pmb{\theta}$ 如下，
$\pmb{\varphi_j}=\begin{bmatrix} x_j \\ 1\end{bmatrix},\pmb{\theta}=\begin{bmatrix} k\\ b\end{bmatrix}$ 可以得到
$y_j=kx_j+b+\varepsilon_j=\begin{bmatrix} x_j & 1\end{bmatrix}\begin{bmatrix} k \\ b\end{bmatrix}+\varepsilon_j=\pmb{\varphi_j}^T\pmb{\theta}+\varepsilon_j.$ 上式称为线性回归模型，在系统辨识中称为辨识模型，也是最小二乘格式。偏差 $\varepsilon_i$ 称为噪声或随机干扰。
下面求解向量形式的目标函数，将 $J_1(k,b)$ 写为向量形式 $J_2(\pmb \theta)$ ，可得到 $J_2(\pmb \theta)=\sum_{j=1}^{n}\varepsilon _j^2=\sum_{j=1}^{n}(y_j-\pmb{\varphi_j}^T\pmb{\theta})^2$
对 $\pmb{\theta}$ 求偏导并令其为零可得 $\frac{\partial J_2(\pmb \theta)}{\partial \pmb \theta}=-2\sum_{j=1}^{n}\pmb{\varphi_j}(y_j-\pmb{\varphi_j}^T\pmb{\theta})=0$
则 $\sum_{j=1}^{n}\pmb{\varphi_j}y_j-(\sum_{j=1}^{n}\pmb{\varphi_j}\pmb{\varphi_j}^T)\pmb{\theta}=0$
故 $\pmb{\theta}$ 的最小二乘估计为 $\hat{\pmb{\theta}}=(\sum_{j=1}^{n}\pmb{\varphi_j}\pmb{\varphi_j}^T)^{-1}\sum_{j=1}^{n}\pmb{\varphi_j}y_j.$
现在定义
$\pmb{Y_n}=\begin{bmatrix} y_1\\ y_2\\...\\y_n\end{bmatrix}\in R^n,\pmb{H_n}=\begin{bmatrix} \pmb{\varphi_1}^T\\ \pmb{\varphi_2}^T\\...\\\pmb{\varphi_n}^T\end{bmatrix}\in R^{2n}，\pmb{\varepsilon_i}=\begin{bmatrix} \varepsilon_1\\ \varepsilon_2\\...\\\varepsilon_n\end{bmatrix}\in R^n.$ 由于 $\pmb{H_n}^T\pmb{H_n}=\begin{bmatrix} \pmb{\varphi_1}& \pmb{\varphi_2}&...&\pmb{\varphi_n}\end{bmatrix}\begin{bmatrix} \pmb{\varphi_1}^T\\ \pmb{\varphi_2}^T\\...\\\pmb{\varphi_n}^T\end{bmatrix}=\sum_{j=1}^{n}\pmb{\varphi_j}\pmb{\varphi_j}^T,\\ \pmb{H_n}^T\pmb{Y_n}=\begin{bmatrix} \pmb{\varphi_1}& \pmb{\varphi_2}&...&\pmb{\varphi_n}\end{bmatrix}\begin{bmatrix} y_1\\ y_2\\...\\y_n\end{bmatrix}=\sum_{j=1}^{n}\pmb{\varphi_j}y_j,$ 所以最小二乘估计最终可以写为
$\hat{\pmb{\theta}}=(\sum_{j=1}^{n}\pmb{\varphi_j}\pmb{\varphi_j}^T)^{-1}\sum_{j=1}^{n}\pmb{\varphi_j}y_j=(\pmb{H_n}^T\pmb{H_n})^{-1}\pmb{H_n}^T\pmb{Y_n}=\hat{\pmb{\theta}}(n)$

参考文献

丁锋.系统辨识新论[M].北京:科学出版社,2013:199.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Expect脚本实战：多条件匹配与防卡死技巧

在自动化测试和系统初始化中，我们常常使用 Expect 脚本来完成一系列交互操作，比如自动输入密码、监听输出并作出响应。然而，实际项目中可能遇到多步骤输出匹配的场景：只有在先匹配到某一行输出，再匹配到另一行输出时，才需要做出响应。同时，如果 “testX failed” 出现了，但 “set params error” 没有在合理时间内出现，不要卡死，而是打印警告并继续。这个写法的问题在于：如

2048 AI社区

AI模型版本控制的标签管理：架构师的技巧

在AI模型生命周期中，版本控制是保障模型可追溯性、协作效率与生产可靠性的核心环节。而标签管理作为版本控制的"语义接口"，其设计质量直接决定了团队对模型版本的理解、检索与复用能力。本文从架构师视角出发，结合第一性原理与MLOps实践，系统阐述AI模型标签管理的理论框架、架构设计、实现机制与高级考量。通过拆解标签的"唯一标识+语义描述"本质，提出四维标签模型。