机器学习笔记（VI）线性模型(II)多维最小二乘法

数据集是D={(x1,y1),(x2,y2),…,(xm,ym)}其中xi=(xi1;xi2;…;xid),yi∈RD=\left\{(\mathbf{x_1},y_1),(\mathbf{x_2},y_2),\dots,(\mathbf{x_m},y_m)\right\}\\\text{其中}\\\mathbf{x_i}=(x_{i1};x_{i2};\dots;x_{id}),y_i\

王先生的副业

2834人浏览 · 2017-12-12 22:37:09

王先生的副业 · 2017-12-12 22:37:09 发布

数据集是

D = {(x 1, y 1), (x 2, y 2), \dots, (x m, y m)} 其 中 x i = (x i 1; x i 2; \dots; x i d), y i \in R

f (x i) = w T x i + b, 使 得 f (x i) \approx y i

w<script type="math/tex" id="MathJax-Element-3">\mathbf{w}</script>和

b<script type="math/tex" id="MathJax-Element-4">b</script>进行估计
步骤：
1：将

w<script type="math/tex" id="MathJax-Element-5"> \mathbf w</script>和

b<script type="math/tex" id="MathJax-Element-6">b</script>吸入向量形式

w^=(w;b),<script type="math/tex" id="MathJax-Element-7">\hat{\mathbf{w}}=(\mathbf{w};b),</script>
2：将数据集

D<script type="math/tex" id="MathJax-Element-8">D</script>表示为一个

m×(d+1)<script type="math/tex" id="MathJax-Element-9">m\times{(d+1)}</script>大小的矩阵

X<script type="math/tex" id="MathJax-Element-10">X</script>

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

y = (y 1; y 2; \dots; y m)

w^* = arg min w^(y - X w^) T (y - X w^)

Ew^=(y−Xw^)T(y−Xw^)<script type="math/tex" id="MathJax-Element-14">E_{\hat{\mathbf {w}}}=(\mathbf {y}-X\hat{\mathbf {w}})^{T}(\mathbf {y}-X\hat{\mathbf {w}})</script>,对

w^<script type="math/tex" id="MathJax-Element-15">\hat{\mathbf {w}}</script>进行求导

\partial E w ^ \partial w ^

(y - X w^) T (y - X w^) = (y T - w^T X T) (y - X w^) = y T y - y T X w^- w^T X T y + w^T X T X w^(1)

1<script type="math/tex" id="MathJax-Element-18">1</script>进行化简

y T y - y T X w^- w^T X T y + w^T X T X w^↓ ↓ (y T y) - (y T X w^+ w^T X T y) + (w^T X T X w^)

\partial y T y \partial w ^= 0

w^<script type="math/tex" id="MathJax-Element-5129">\mathbf{\hat{w}}</script>求导，

yTy<script type="math/tex" id="MathJax-Element-5130">\mathbf{y}^T\mathbf{y}</script>相当于常数，因此求偏导的结果是0
第二个部分：
对于

y T X w^+ w^T X T y (2)

yTXw^<script type="math/tex" id="MathJax-Element-5132">\mathbf {y}^TX\hat{\mathbf {w}}</script>和

w^TXTy<script type="math/tex" id="MathJax-Element-5133">\hat{\mathbf {w}}^TX^T\mathbf {y}</script>都是

1×1<script type="math/tex" id="MathJax-Element-5134">1\times1</script>的矩阵此时

y T X w^= (w^T X T y) T

1×1<script type="math/tex" id="MathJax-Element-5136">1\times1</script>的矩阵

A<script type="math/tex" id="MathJax-Element-5137">\mathbf{A}</script>有

AT=A<script type="math/tex" id="MathJax-Element-5138">\mathbf{A}^T=\mathbf{A}</script>
因此对于式

(2)<script type="math/tex" id="MathJax-Element-5139">(2)</script>有

(2) = 2 (y T X w^)

\partial y T X w ^ \partial w ^= ?

y T = (y 1, y 2, \dots, y m); X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟; w^= (w 1; w 2; \dots; w d; b);

y T X = (\sum i = 1 m x i 1 y i, \sum i = 1 m x i 2 y i \dots, \sum i = 1 m x i d y i, \sum i = 1 m y i) (part1)

(p a r t 1) w^= (\sum i = 1 m x i 1 y i, \sum i = 1 m x i 2 y i \dots, \sum i = 1 m x i d y i, \sum i = 1 m y i) \times (w 1; w 2; \dots; w d; b) = \sum j = 1 d \sum i = 1 m x i j y i w j + b \sum i = 1 m y i (part1sum)

\partial p a r t 1 s u m \partial w ^= ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \partial p a r t 1 s u m \partial w 1 \partial p a r t 1 s u m \partial w 2 ⋮ \partial p a r t 1 s u m \partial w d \partial p a r t 1 s u m \partial b ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum i = 1 m x i 1 y i \sum i = 1 m x i 2 y i ⋮ \sum i = 1 m x i d y i \sum i = 1 m y i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

(d+1)×1<script type="math/tex" id="MathJax-Element-5146">(d+1)\times1</script>的矩阵也就是列向量
而

X T y = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 12 ⋮ x 1 d 1 x 21 x 22 ⋮ x 2 d 1 \dots \dots ⋱ \dots \dots x m 1 x m 2 ⋮ x m d 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ \times ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ y 1 y 2 ⋮ y m ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \sum i = 1 m x i 1 y i \sum i = 1 m x i 2 y i ⋮ \sum i = 1 m x i d y i \sum i = 1 m y i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ = \partial p a r t 1 s u m \partial w ^

\partial ( w ^ T X T X w ^ ) \partial w ^= 2 X T X w^

\partial E w ^ w ^= 2 X T (X w^- y)

\partial E w ^ w ^= 2 X T (X w^- y) X T X w^= 0 = X T y

XTX<script type="math/tex" id="MathJax-Element-5151">X^TX</script>必须是可逆矩阵
所以得到：

w^* = (X T X) - 1 X T y

f (x i) = w T x i + b, 使 得 f (x i) \approx y i

w<script type="math/tex" id="MathJax-Element-5154"> \mathbf w</script>和

b<script type="math/tex" id="MathJax-Element-5155">b</script>吸入向量形式

w^=(w;b),<script type="math/tex" id="MathJax-Element-5156">\hat{\mathbf{w}}=(\mathbf{w};b),</script>
此时可以令

x^i=(xi;1)<script type="math/tex" id="MathJax-Element-5157">\hat{x}_i=(x_i;1)</script>可以得到学得的模型是

f (x i) = (w; b) T (x i; 1) \to f (x^i) = w^T x^i

w^∗<script type="math/tex" id="MathJax-Element-5159">\hat{\mathbf{w}}^*</script>代入
得到：

f (x^i) = ((X T X) - 1 X T y) T x^i ⇕ f (x^i) = x^T i (X T X) - 1 X T y

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI证件照制作 API 快速生成证件照

本文将介绍一种 AI证件照制作 API 对接说明，它是可以通过输入人像照片URL以及自己喜欢的模板来制作各种风格的证件照。接下来介绍下 AI证件照制作 API 的对接说明。

2048 AI社区

对接gpt-4o-image-vip教程分享

2048 AI社区

AI工具系列一：90%的人还不知道！开会不用记笔记，AI 5分钟自动生成会议纪要+脑图，领导看完直说“专业”！

2048 AI社区

所有评论(0)

查看更多评论

王先生的副业

@uncle_gy

已为社区贡献5条内容