线性回归与 Softmax 回归总结

梯度下降靠 “反梯度方向” 更新参数，是基础操作；小批量随机梯度下降是深度学习的 “默认选手”，又快又实用；调好学率和批量大小，模型训练能少走很多弯路～线性回归是 “数值预测小能手”，靠公式和梯度下降算准连续值；Softmax 回归是 “分类贴标专家”，用 Softmax 运算把置信度变概率，轻松给事物分类别。两者都是深度学习的 “地基模型”，学好它们，就能解锁更复杂的 AI 技能啦！

2301_78625160

267人浏览 · 2025-09-17 16:10:14

2301_78625160 · 2025-09-17 16:10:14 发布

一、线性回归：给房子 “算价格” 的神器

（1）生活里的线性回归：买房估价小能手

看中一套房，想知道该出多少钱？线性回归就能帮上忙！它会收集房子的各种信息（比如卧室数量、车库大小、周边学校情况），再参考往年成交价、邻居买房花的钱，用一套 “公式魔法” 算出合理价格，就像给房子做 “价值体检”～

（2）核心公式：用数学给 “估价” 建模

线性回归的核心是两个公式，就像两把 “计算钥匙”：

单个样本：y = wᵀx + b ，x 是房子的特征（比如卧室数），w 是每个特征的 “重要程度”（权重），b 是 “基础价格”（偏置），y 就是算出来的房价。
多个样本：y = Xw + b ，一次性处理好多套房子的数据，效率更高～

（3）藏在背后的 “神经网络”

别以为线性回归很简单，它其实是个超迷你的神经网络！只有两层：

输入层：接收房子的特征（比如 x₁= 卧室数、x₂= 车库面积）；
输出层：输出算好的房价 y，中间靠权重 w（比如 w₁、w₂）把两层连起来，超直观～

二、让模型 “变优秀”：优化算法的小技巧

模型刚开始 “学艺不精”，得靠优化算法帮它 “精进武功”，核心目标是找到让 “错误最少”（损失函数最小）的参数（w 和 b）。

（1）梯度法：给模型装个 “方向指南针”

梯度就像函数上每个点的 “下坡方向”，它指的反方向是函数值下降最快的路。虽然不能保证直接走到 “最低点”（最小值），但跟着它走，能最快减少错误。
就像爬山找山谷，梯度会告诉你 “往哪走下降最快”，走一步后重新看方向，反复走，直到走到相对平坦的地方～

（2）随机梯度下降：“小步快跑” 学更快

这是梯度法的 “升级版”，核心是 “边学边更”：每次拿少量数据练手，算出梯度后立刻调整参数，不断在 “减少错误” 的方向上前进，就像学生做一道题改一道，进步更快～

（3）超参数 “避坑指南”

训练时要调两个关键 “旋钮”（超参数），调不好会踩坑：

学习率：步长太大容易 “走过头”（错过最小值），太小又会 “走得太慢”（训练半天没进步），得找个 “中间值”。
批量大小：每次练手的数据量不能太小（浪费计算资源，学不全面），也不能太大（数据太多算不过来，白费力），平衡最重要～

（4）总结：优化的 “黄金法则”

梯度下降靠 “反梯度方向” 更新参数，是基础操作；
小批量随机梯度下降是深度学习的 “默认选手”，又快又实用；
调好学率和批量大小，模型训练能少走很多弯路～

三、Softmax 回归：给事物 “贴标签” 的专家

线性回归管 “算数值”（比如房价），Softmax 回归则管 “分类别”（比如判断图片是猫、狗还是兔子），专治 “选 A 还是选 B” 的问题～

（1）回归 VS 分类：俩模型的 “分工”

常见的分类任务超多样：

ImageNet：给 1000 种自然物体 “贴标签”（比如区分老虎、椅子）；
MNIST：认手写数字 0-9（10 类分类）；
Kaggle 任务：给蛋白质图像分 28 类，给维基百科评论分 “恶语 / 非恶语” 等 7 类～

（2）从 “算数值” 到 “分类别”：模型的 “变身”

分类问题和回归有三大不同，模型也要跟着变：

输出数量：分类要输出多个值，每个值代表 “属于某一类的可能性”（置信度），比如识别数字时，输出 10 个值，分别对应 “是 0-9 的概率”。
输出层设计：输出层神经元数量 = 类别数，比如 10 类分类就设 10 个神经元。
损失计算：回归看 “预测值和真实值差多少”，分类看 “预测的类别对不对”～

（3）Softmax 运算：给 “可能性” 算概率

分类时，输出的 “置信度” 是乱的，Softmax 运算就是 “整理大师”：

第一步：用exp()函数把所有置信度变成正数（概率不能是负的）；
第二步：把所有正数加起来，再用每个数除以总和，得到 “概率分布”（所有概率加起来 = 1）。

比如输入置信度 [1, -1, 2]，经过 Softmax 运算，会变成 [0.26, 0.04, 0.7]，意思是 “属于第一类的概率 26%，第二类 4%，第三类 70%”，直接选概率最大的第三类就行～

（4）损失函数：给分类 “挑错” 的工具

分类任务用的损失函数和回归不一样，常见的有这些：

平方损失（L2 损失）：看预测值和真实值的 “平方差”，简单但有时不够精准；
L1 损失：看 “绝对差”，对极端值不敏感；
Huber 损失：结合前两者优点，误差小时用平方，误差大时用绝对差，更灵活；
交叉熵损失：专门用来比较 “概率分布”，分类任务里最常用，能精准衡量 “预测概率和真实概率差多少”～

四、一句话总结

线性回归是 “数值预测小能手”，靠公式和梯度下降算准连续值；Softmax 回归是 “分类贴标专家”，用 Softmax 运算把置信度变概率，轻松给事物分类别。两者都是深度学习的 “地基模型”，学好它们，就能解锁更复杂的 AI 技能啦！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI+重构企业增长逻辑：从工具应用到引擎驱动的完整指南

2048 AI社区

【无人机三维路径规划】基于基于NSGAII实现考虑汽车风险、撞击面积、大气密度的复杂楼市内无人机三维路径规划研究（Matlab代码实现）

本研究针对城市高密度建筑群、商业区多层停车场等复杂楼市环境，提出一种基于非支配排序遗传算法（NSGA-II）的无人机三维路径规划方法。该方法综合考虑汽车动态风险、撞击面积、大气密度变化等约束条件，通过多目标优化平衡安全性、经济性与稳定性。实验表明，该算法在复杂场景下可生成帕累托最优解集，路径规划成功率提升32.7%，能耗降低19.4%，满足实际工程需求。