线性模型（二）之多项式拟合

多项式拟合（polynominal curve fitting）是一种线性模型，模型和拟合参数的关系是线性的。多项式拟合的输入是一维的，即x=xx=x\textbf{x} = x，这是多项式拟合和线性回归问题的主要区别之一。多项式拟合的目标是构造输入xxx的MMM阶多项式函数，使得该多项式能够近似表示输入xxx和输出yyy的关系，虽然实际上xxx和yyy的关系并不一定是多项式，但使用足..

keep_forward

23432人浏览 · 2018-05-23 22:53:50

keep_forward · 2018-05-23 22:53:50 发布

1. 多项式拟合问题

多项式拟合（polynominal curve fitting）是一种线性模型，模型和拟合参数的关系是线性的。多项式拟合的输入是一维的，即 x=x <script type="math/tex" id="MathJax-Element-341">\textbf{x} = x</script>，这是多项式拟合和线性回归问题的主要区别之一。

多项式拟合的目标是构造输入 x <script type="math/tex" id="MathJax-Element-342">x</script>的 $M$ <script type="math/tex" id="MathJax-Element-343">M</script>阶多项式函数，使得该多项式能够近似表示输入 x <script type="math/tex" id="MathJax-Element-344">x</script>和输出 $y$ <script type="math/tex" id="MathJax-Element-345">y</script>的关系，虽然实际上 x <script type="math/tex" id="MathJax-Element-346">x</script>和 $y$ <script type="math/tex" id="MathJax-Element-347">y</script>的关系并不一定是多项式，但使用足够多的阶数，总是可以逼近表示输入 x <script type="math/tex" id="MathJax-Element-348">x</script>和输出 $y$ <script type="math/tex" id="MathJax-Element-349">y</script>的关系的。

多项式拟合问题的输入可以表示如下：

D = {(x 1, y 1), (x 2, y 2), . . ., (x i, y i), . . ., (x N, y N)} x i \in R y i \in R

目标输出是得到一个多项式函数：

f (x) = w 1 x 1 + w 2 x 2 + w i x i + . . . + w M x M + b = (\sum i = 1 M w i x i) + b

其中 M <script type="math/tex" id="MathJax-Element-365">M</script>表示最高阶数为 $M$ <script type="math/tex" id="MathJax-Element-366">M</script>。

可见在线性拟合的模型中，共包括了 (M+1) <script type="math/tex" id="MathJax-Element-367">(M+1)</script>个参数，而该模型虽然不是输入 x <script type="math/tex" id="MathJax-Element-368">x</script>的线性函数，但却是 $(M + 1)$ <script type="math/tex" id="MathJax-Element-369">(M+1)</script>个拟合参数的线性函数，所以称多项式拟合为线性模型。对于多项式拟合问题，其实就是要确定这 (M+1) <script type="math/tex" id="MathJax-Element-370">(M+1)</script>个参数，这里先假设阶数 M <script type="math/tex" id="MathJax-Element-371">M</script>是固定的（ $M$ <script type="math/tex" id="MathJax-Element-372">M</script>是一个超参数，可以用验证集来确定 M <script type="math/tex" id="MathJax-Element-373">M</script>最优的值，详细的关于 $M$ <script type="math/tex" id="MathJax-Element-374">M</script>值确定的问题，后面再讨论），重点就在于如何求出这 (M+1) <script type="math/tex" id="MathJax-Element-375">(M+1)</script>个参数的值。

2.优化目标

多项式拟合是利用多项式函数逼近输入 x <script type="math/tex" id="MathJax-Element-380">x</script>和输出 $y$ <script type="math/tex" id="MathJax-Element-381">y</script>的函数关系，通过什么指标来衡量某个多项式函数的逼近程度呢？（其实这就是误差/损失函数）。拟合/回归问题常用的评价指标是均方误差（在机器学习中的模型评估与度量博客中，我进行了介绍）。多项式拟合问题也同样采用该评价指标，以均方误差作为误差/损失函数，误差函数越小，模型越好。

E (w, b) = 1 N \sum i = 1 N [f (x i) - y i] 2

系数 1N <script type="math/tex" id="MathJax-Element-47">\frac{1}{N}</script>是一常数，对优化结果无影响，可以去除，即将均方误差替换为平方误差：

E (w, b) = \sum i = 1 N [f (x i) - y i] 2

arg min w, b E (w, b)

即需要求得参数 {w1,...,wM,b} <script type="math/tex" id="MathJax-Element-389">\{w_1, ...,w_M, b\}</script>的值，使得 E(w,b) <script type="math/tex" id="MathJax-Element-390">E(\mathbf{w}, b)</script>最小化。那么如何对该最优化问题求解呢？

3. 优化问题求解

3.1 求偏导，联立方程求解

直观的想法是，直接对所有参数求偏导，令偏导为0，再联立这 M+1 <script type="math/tex" id="MathJax-Element-557">M+1</script>个方程求解（因为共有 M+1 <script type="math/tex" id="MathJax-Element-558">M+1</script>个参数，故求偏导后也是得到 M+1 <script type="math/tex" id="MathJax-Element-559">M+1</script>个方程）。

E (w, b) = \sum i = 1 N [f (x i) - y i] 2 = \sum i = 1 N [(w 1 x 1 i + w 2 x 2 i + w i x j i + . . . + w M x M i + b) - y i] 2

利用 E(w,b) <script type="math/tex" id="MathJax-Element-519">E(\mathbf{w},b)</script>对各个参数求偏导，如下：

\partial E ( w , b ) \partial w j \partial E ( w , b ) \partial b = 2 \sum i = 1 N [(w 1 x 1 i + w 2 x 2 i + w i x j i + . . . + w M x M i + b) - y i] x j i = 2 \sum i = 1 N [(w 1 x 1 i + w 2 x 2 i + w i x j i + . . . + w M x M i + b) - y i]

求导之后，将各个点 (xi,yi) <script type="math/tex" id="MathJax-Element-2130">(x_i,y_i)</script>的值带入偏导公式，联立方程求解即可。

针对该解法，可以举个例子详细说明，比如有两个点 (2,3),(5,8) <script type="math/tex" id="MathJax-Element-2131">(2,3),(5,8)</script>,需要利用二阶多项式 f(x)=w1x+w2x2+b <script type="math/tex" id="MathJax-Element-2132">f(x) = w_1x + w_2x^2 + b</script>拟合。求解过程如下：

该二阶多项式对参数求偏导得到
$\partial E ( w , b ) \partial w j \partial E ( w , b ) \partial b = 2 \sum i = 1 2 [(w 1 x 1 i + w 2 x 2 i + b) - y i] x j i = [(w 1 x 1 + w 2 x 21 + b) - y 1] x j 1 + [(w 1 x 2 + w 2 x 22 + b) - y 2] x j 2 = 2 \sum i = 1 2 [(w 1 x 1 i + w 2 x 2 i + b) - y i] = [(w 1 x 1 + w 2 x 21 + b) - y 1] + [(w 1 x 2 + w 2 x 22 + b) - y 2]$ <script type="math/tex; mode=display" id="MathJax-Element-2133">\begin{equation*} \begin{aligned} \frac{\partial E(\mathbf{w}, b)}{\partial w_j} &= 2 \sum_{i=1}^{2} {\lbrack (w_1 x_i^1 + w_2 x_i^2 + b) - y_i\rbrack} x_i^j \\ &= [(w_1x_1 + w_2x_1^2 + b) - y_1] x_1^j + [(w_1x_2 + w_2x_2^2 + b) - y_2] x_2^j\\ \frac{\partial E(\mathbf{w}, b)}{\partial b} &= 2 \sum_{i=1}^{2} {\lbrack (w_1 x_i^1 + w_2 x_i^2 + b) - y_i\rbrack} \\ &= [(w_1x_1 + w_2x_1^2 + b) - y_1] + [(w_1x_2 + w_2x_2^2 + b) - y_2]\\ \end{aligned} \end{equation*}</script>

将点 (2,3),(5,8) <script type="math/tex" id="MathJax-Element-2134">(2,3),(5,8)</script>带入方程，可以得到3个方程，
$2 b + 7 w 1 + 29 w 2 = 11 7 b + 29 w 1 + 133 w 2 = 46 29 b + 133 w 1 + 641 w 2 = 212$ <script type="math/tex; mode=display" id="MathJax-Element-2135">\begin{equation*} \begin{aligned} 2b + 7w_1 + 29w_2= 11 \\ 7b + 29w_1 + 133 w_2 = 46 \\ 29b + 133w_1 + 641w_2 = 212 \end{aligned} \end{equation*}</script>

联立这三个方程求解，发现有无穷多的解，只能得到 3w1+21w2=5 <script type="math/tex" id="MathJax-Element-2136">3w_1 + 21w_2 = 5</script>，这三个方程是线性相关的，故没有唯一解。

该方法通过求偏导，再联立方程求解，比较复杂，看着也很不美观。那么有没有更加方便的方法呢？

3.2 最小二乘法

其实求解该最优化问题（平方和的最小值）一般会采用最小二乘法（其实最小二乘法和求偏导再联立方程求解的方法无本质区别，求偏导也是最小二乘法，只是这里介绍最小二乘的矩阵形式而已）。最小二乘法（least squares），从英文名非常容易想到，该方法就是求解平方和的最小值的方法。

可以将误差函数以矩阵的表示( N <script type="math/tex" id="MathJax-Element-3333">N</script>个点，最高 $M$ <script type="math/tex" id="MathJax-Element-3334">M</script>阶)为：

∥ X w - y ∥ 2

其中，把偏置 b <script type="math/tex" id="MathJax-Element-3527">b</script>融合到了参数 $w$ <script type="math/tex" id="MathJax-Element-3528">\bf w</script>中，

w = {b, w 1, w 2, . . ., w M}

X <script type="math/tex" id="MathJax-Element-3530">\mathbf X</script>则表示输入矩阵，

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 11 . . . 1 x 1 x 2 . . . x N x 21 x 22 . . . x 2 N . . . . . . . . . . . . x M 1 x M 2 . . . x M N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

y <script type="math/tex" id="MathJax-Element-3532">\mathbf y</script>则表示标注向量，

y = {y 1, y 2, . . ., y N} T

因此，最优化问题可以重新表示为

min w ∥ X w - y ∥ 2

对其求导，

\partial ∥ X w - y ∥ 2 \partial w = \partial ( X w - y ) T ( X w - y ) \partial w = \partial ( w T X T - y T ) ( X w - y ) \partial w = \partial ( w T X T X w - y T X w - w T X T y + y T y ) \partial w

在继续对其求导之前，需要先补充一些矩阵求导的先验知识（常见的一些矩阵求导公式可以参见转载的博客https://blog.csdn.net/lipengcn/article/details/52815429），如下：

$\partial x T a \partial x = a \partial a x \partial x = a T \partial x T A \partial x = A x + A T x$ <script type="math/tex; mode=display" id="MathJax-Element-3553">\begin{equation*} \frac{\partial \mathbf{x}^T\mathbf{a}}{\partial \mathbf{x}} = \mathbf{a} \\ \frac{\partial \mathbf{ax}}{\partial \mathbf{x}} = \mathbf{a}^T \\ \frac{\partial \mathbf{x}^T\mathbf{A}}{\partial \mathbf{x}} = \mathbf{Ax} + \mathbf{A}^T\mathbf{x} \end{equation*}</script>

根据上面的矩阵求导规则，继续进行损失函数的求导

\partial ∥ X w - y ∥ 2 \partial w = \partial ( w T X T X w - y T X w - w T X T y + y T y ) \partial w = X T X w + (X T X) T w - (y T X) T - X T y = 2 X T X w - 2 X T y

其中 XTXw=(XTX)Tw <script type="math/tex" id="MathJax-Element-3569">\mathbf{X}^T\mathbf{Xw} = (\mathbf{X}^T\mathbf{X})^T\mathbf{w}</script>.令求导结果等于0，即可以求导问题的最小值。

2 X T X w - 2 X T y = 0 w = (X T X) - 1 X T y

再利用最小二乘法的矩阵形式对前面的例子进行求解，用二阶多项式拟合即两个点 (2,3),(5,8) <script type="math/tex" id="MathJax-Element-5425">(2,3),(5,8)</script>。

表示输入矩阵 X <script type="math/tex" id="MathJax-Element-5426">\mathbf{X}</script>和标签向量 y <script type="math/tex" id="MathJax-Element-5427">\mathbf{y}</script>
$X = [1125425] y = [38] T$ <script type="math/tex; mode=display" id="MathJax-Element-5428">\begin{gather*} \mathbf{X} = \begin{bmatrix} 1 & 2& 4 \\ 1 & 5 & 25\\ \end{bmatrix} \\ \mathbf{y} = \begin{bmatrix} 3 & 8 \\ \end{bmatrix} ^T\\ \end{gather*}</script>

计算 XTX <script type="math/tex" id="MathJax-Element-5429">\mathbf{X}^T\mathbf{X}</script>
$X T X = ⎡ ⎣ ⎢ 272972913329133641 ⎤ ⎦ ⎥$ <script type="math/tex; mode=display" id="MathJax-Element-5430">\begin{gather*} \mathbf{X}^T\mathbf{X} = \begin{bmatrix} 2 & 7& 29 \\ 7 & 29 & 133\\ 29 & 133 & 641\\ \end{bmatrix} \\ \end{gather*}</script>

矩阵求逆，再做矩阵乘法运算
但 XTX <script type="math/tex" id="MathJax-Element-5431">\mathbf{X}^T\mathbf{X} </script>不可逆，故无唯一解。

关于矩阵的逆是否存在，可以通过判断矩阵的行列式是否为0（ det(A)=?0 <script type="math/tex" id="MathJax-Element-5432">det(\mathbf{A}) \stackrel{?}{=} 0</script> 来判断，也可以通过初等行变换，观察矩阵的行向量是否线性相关，在这个例子下，矩阵不可逆，故有无穷多解。但如果新增一个点 (4,7) <script type="math/tex" id="MathJax-Element-5433">(4,7)</script>，则就可以解了。

其实这和数据集的点数和选择的阶数有关，如果点数小于阶数则会出现无穷解的情况，如果点数等于阶数，那么刚好有解可以完全拟合所有数据点，如果点数大于阶数，则会求的近似解。

那么对于点数小于阶数的情况，如何求解？在python的多项式拟合函数中是可以拟合的，而且效果不错，具体算法不是很了解，可以想办法参考python的ployfit()函数的实现。

4. 拟合阶数的选择

在前面的推导中，多项式的阶数被固定了，那么实际场景下应该如何选择合适的阶数 M <script type="math/tex" id="MathJax-Element-5569">M</script>呢？

一般会选择阶数 $M$ <script type="math/tex" id="MathJax-Element-5570">M</script>小于点数 N <script type="math/tex" id="MathJax-Element-5571">N</script>

把训练数据分为训练集合验证集，在训练集上，同时用不同的 $M$ <script type="math/tex" id="MathJax-Element-5572">M</script>值训练多个模型，然后选择在验证集误差最小的阶数 M <script type="math/tex" id="MathJax-Element-5573"></script>

5. 后续

如果后续还想写的话，可以考虑正则化问题。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从GPT到Agent：大语言模型的进化之路

大语言模型（LLM）本质上是什么？为什么我们不满足于“只会聊天的GPT”，一定要把它进化成“能自主干活的Agent”？首先，我们来定义一下什么是语言模型——语言模型是一种用来计算“一段文本（或者一个句子、一个单词序列）出现的概率”的数学模型。举个最简单的例子：给定一段文本“今天天气真____”，语言模型的作用就是计算“下一个单词是‘好’的概率”“下一个单词是‘热’的概率”“下一个单词是‘冷’的概率

2048 AI社区

企业要不要做自研 Agent 底座

随着大语言模型(LLMs)的快速发展，智能代理(Agent)技术正成为企业数字化转型的新前沿。然而，企业在规划Agent战略时面临一个核心决策：是自研Agent底座，还是采用现有商用或开源解决方案？本文将从技术深度、战略价值、成本效益、实施挑战等多个维度，系统分析这一决策的各个方面。我们将构建一个完整的决策框架，帮助企业根据自身情况做出明智选择，并提供自研Agent底座的技术架构、实现路径和最佳实