线性回归与 Softmax 回归总结
梯度下降靠 “反梯度方向” 更新参数,是基础操作;小批量随机梯度下降是深度学习的 “默认选手”,又快又实用;调好学率和批量大小,模型训练能少走很多弯路~线性回归是 “数值预测小能手”,靠公式和梯度下降算准连续值;Softmax 回归是 “分类贴标专家”,用 Softmax 运算把置信度变概率,轻松给事物分类别。两者都是深度学习的 “地基模型”,学好它们,就能解锁更复杂的 AI 技能啦!
一、线性回归:给房子 “算价格” 的神器
(1)生活里的线性回归:买房估价小能手
看中一套房,想知道该出多少钱?线性回归就能帮上忙!它会收集房子的各种信息(比如卧室数量、车库大小、周边学校情况),再参考往年成交价、邻居买房花的钱,用一套 “公式魔法” 算出合理价格,就像给房子做 “价值体检”~
(2)核心公式:用数学给 “估价” 建模
线性回归的核心是两个公式,就像两把 “计算钥匙”:
- 单个样本:
y = wᵀx + b
,x 是房子的特征(比如卧室数),w 是每个特征的 “重要程度”(权重),b 是 “基础价格”(偏置),y 就是算出来的房价。 - 多个样本:
y = Xw + b
,一次性处理好多套房子的数据,效率更高~
(3)藏在背后的 “神经网络”
别以为线性回归很简单,它其实是个超迷你的神经网络!只有两层:
- 输入层:接收房子的特征(比如 x₁= 卧室数、x₂= 车库面积);
- 输出层:输出算好的房价 y,中间靠权重 w(比如 w₁、w₂)把两层连起来,超直观~
二、让模型 “变优秀”:优化算法的小技巧
模型刚开始 “学艺不精”,得靠优化算法帮它 “精进武功”,核心目标是找到让 “错误最少”(损失函数最小)的参数(w 和 b)。
(1)梯度法:给模型装个 “方向指南针”
梯度就像函数上每个点的 “下坡方向”,它指的反方向是函数值下降最快的路。虽然不能保证直接走到 “最低点”(最小值),但跟着它走,能最快减少错误。
就像爬山找山谷,梯度会告诉你 “往哪走下降最快”,走一步后重新看方向,反复走,直到走到相对平坦的地方~
(2)随机梯度下降:“小步快跑” 学更快
这是梯度法的 “升级版”,核心是 “边学边更”:每次拿少量数据练手,算出梯度后立刻调整参数,不断在 “减少错误” 的方向上前进,就像学生做一道题改一道,进步更快~
(3)超参数 “避坑指南”
训练时要调两个关键 “旋钮”(超参数),调不好会踩坑:
- 学习率:步长太大容易 “走过头”(错过最小值),太小又会 “走得太慢”(训练半天没进步),得找个 “中间值”。
- 批量大小:每次练手的数据量不能太小(浪费计算资源,学不全面),也不能太大(数据太多算不过来,白费力),平衡最重要~
(4)总结:优化的 “黄金法则”
- 梯度下降靠 “反梯度方向” 更新参数,是基础操作;
- 小批量随机梯度下降是深度学习的 “默认选手”,又快又实用;
- 调好学率和批量大小,模型训练能少走很多弯路~
三、Softmax 回归:给事物 “贴标签” 的专家
线性回归管 “算数值”(比如房价),Softmax 回归则管 “分类别”(比如判断图片是猫、狗还是兔子),专治 “选 A 还是选 B” 的问题~
(1)回归 VS 分类:俩模型的 “分工”
常见的分类任务超多样:
- ImageNet:给 1000 种自然物体 “贴标签”(比如区分老虎、椅子);
- MNIST:认手写数字 0-9(10 类分类);
- Kaggle 任务:给蛋白质图像分 28 类,给维基百科评论分 “恶语 / 非恶语” 等 7 类~
(2)从 “算数值” 到 “分类别”:模型的 “变身”
分类问题和回归有三大不同,模型也要跟着变:
- 输出数量:分类要输出多个值,每个值代表 “属于某一类的可能性”(置信度),比如识别数字时,输出 10 个值,分别对应 “是 0-9 的概率”。
- 输出层设计:输出层神经元数量 = 类别数,比如 10 类分类就设 10 个神经元。
- 损失计算:回归看 “预测值和真实值差多少”,分类看 “预测的类别对不对”~
(3)Softmax 运算:给 “可能性” 算概率
分类时,输出的 “置信度” 是乱的,Softmax 运算就是 “整理大师”:
- 第一步:用
exp()
函数把所有置信度变成正数(概率不能是负的); - 第二步:把所有正数加起来,再用每个数除以总和,得到 “概率分布”(所有概率加起来 = 1)。
比如输入置信度 [1, -1, 2],经过 Softmax 运算,会变成 [0.26, 0.04, 0.7],意思是 “属于第一类的概率 26%,第二类 4%,第三类 70%”,直接选概率最大的第三类就行~
(4)损失函数:给分类 “挑错” 的工具
分类任务用的损失函数和回归不一样,常见的有这些:
- 平方损失(L2 损失):看预测值和真实值的 “平方差”,简单但有时不够精准;
- L1 损失:看 “绝对差”,对极端值不敏感;
- Huber 损失:结合前两者优点,误差小时用平方,误差大时用绝对差,更灵活;
- 交叉熵损失:专门用来比较 “概率分布”,分类任务里最常用,能精准衡量 “预测概率和真实概率差多少”~
四、一句话总结
线性回归是 “数值预测小能手”,靠公式和梯度下降算准连续值;Softmax 回归是 “分类贴标专家”,用 Softmax 运算把置信度变概率,轻松给事物分类别。两者都是深度学习的 “地基模型”,学好它们,就能解锁更复杂的 AI 技能啦!
更多推荐
所有评论(0)