机器学习(三)回归问题之Robust Regression

我们知道最小二乘法的误差函数是均方L2范数，接下来则是讨论为什么均方回归会对异常点outliers敏感以及有没有更好的误差函数使得更好的处理outliers？ &nb...

Raywit

4443人浏览 · 2020-04-08 14:08:07

Raywit · 2020-04-08 14:08:07 发布

在这里插入图片描述
我们知道最小二乘法的误差函数是均方L2范数，接下来则是讨论 为什么均方回归会对异常点outliers敏感 以及 有没有更好的误差函数使得更好的处理outliers？
在这里插入图片描述

常见的误差函数：

在这里插入图片描述
上图可以看出，对于绝对值误差函数，发现在误差 x 在0的附近发现不可导，因此优化难以进行；而Huber完美解决这样的问题，在0附近可导，在大误差范围又兼具绝对值特性。

最小化均方L2范数 等价于假设误差服从独立等方差的 高斯分布 的最大似然估计；
最小化L1范数 等价于假设误差服从独立等方差的 拉普拉斯分布 的最大似然估计。

证明：

Q1： 为什么L2范数回归会对异常点outliers敏感，L1范数回归是否要比 L2范数回归鲁棒更好？

A1： 由于重尾分布。
在这里插入图片描述

根据上图可以看出在同方差的条件下，选取某段误差区间，例如：当 $σ=1\sigma =1$ ，误差 $1]x\in [0,\ 1]$ 时，可以发现Laplace更集中在误差小的范围，而Gauss包容更多误差大的点，因此对于异常点就更敏感些。

因此可以发现 L1范数回归 要比 L2范数回归 鲁棒更好。

更通俗来说：L2范数和L1范数分别评估的是“均值”和“中值”。
在这里插入图片描述

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

Spring AI+向量数据库实战：Java构建高可用企业级知识库（附语义搜索落地）

cover

收藏备用！程序员转行大模型全指南：从认知到落地，逆袭风口赛道

cover

外贸B2B建站需要注意哪些问题？新手团队常见翻车点汇总

所有评论(0)

查看更多评论

Raywit

已为社区贡献8条内容