1、梯度下降法(Gradient Descent, GD)
一种通用的优化框架,核心思想是:
通过计算损失函数关于参数的梯度(梯度方向是函数值增长最快的方向),沿负梯度方向更新参数(以减小损失函数值),重复迭代直到收敛(逐步逼近最小值)
数学表达为:θ = θ - η·∇J(θ),其中η为学习率
GD的变种:
(1)随机梯度下降法(SGD)
原理:每次随机选取一个样本计算梯度并更新参数,减少计算量
优点:训练速度快,适合大规模数据集;梯度波动可能帮助跳出局部最优
缺点:可能陷入局部最优,收敛速度较慢
适用场景:大规模数据集的模型训练(如深度学习初期基础优化器)、在线学习场景(实时更新模型)
(2)批量梯度下降法(BGD)
原理:每次迭代使用全部训练样本计算梯度
优点:梯度估计准确,收敛方向稳定;可使用矩阵运算优化,计算高效;能得到全局最优解(针对凸函数)
• 缺点:当训练数据量大时,内存消耗大;迭代速度慢,收敛过程耗时; 计算开销大,缺乏灵活性,无法在线学习(无法实时更新模型)
适用场景:小规模数据集的线性回归、逻辑回归等简单模型训练
(3)​​小批量梯度下降法(MBGD)
原理:结合 GD 和 SGD 的优点,每次使用一小批样本(如 32、64、128 个)计算梯度,平衡计算效率和收敛稳定性。
优点:兼顾计算效率和收敛速度,是目前深度学习中最常用的基础优化算法。
缺点:仍需手动调整学习率,对非凸函数可能陷入局部最优。
适用场景:深度学习模型训练(如 CNN、RNN)、中等规模数据集的优化问题

2、动量优化(Momentum)​
原理:模拟物理中的 “动量” 概念,累加历史梯度的加权平均,减少收敛过程中的震荡,加速收敛。
优点:缓解SGD震荡,加快收敛,尤其对高曲率或稀疏梯度有效
缺点:对梯度方向变化大的场景可能 “冲过” 最优解。
适用场景:深度网络训练,尤其是损失函数地形复杂时(如深度学习中的图像分类模型)

3、自适应学习率算法
(1)自适应梯度算法(AdaGrad)
原理:为每个参数自适应调整学习率,累积历史梯度平方和
优点:无需手动调整学习率,适合稀疏数据(如自然语言处理中的词向量参数)
缺点:学习率随迭代逐渐衰减至 0,可能导致后期训练停滞。
适用场景:稀疏数据任务(如文本分类、推荐系统)、参数更新频率差异大的问题(稀疏梯度的问题)
(2)均方根传播算法(RMSProp)
原理:改进AdaGrad,引入衰减因子(指数加权平均),避免学习率骤降
特点:指数移动平均(仅保留近期梯度信息),避免学习率衰减至 0
适用场景:非平稳目标(如 RNN)、复杂模型
(3) 自适应动量估计(Adam)最常用
原理:结合Momentum和RMSProp的优点,同时跟踪梯度的一阶矩(均值)和二阶矩(方差),动态调整学习率
优点:收敛速度快,稳定性好,对不同任务适应性强,是目前深度学习中最流行的优化算法之一。
缺点:在某些场景(如生成对抗网络)可能收敛到次优解。
适用场景:CV、NLP等大规模模型训练,推荐作为默认选择

4、二阶优化算法
这类算法不依赖梯度信息,适用于目标函数不可微、高维、离散或存在噪声的复杂场景;通常用于非线性优化问题
(1)牛顿法​​
​​原理​​:利用损失函数的二阶导数(Hessian矩阵)加速收敛
特点​​:收敛快但计算代价高(Hessian矩阵求逆复杂度)
适用场景:低维问题、二次函数优化
​(2)拟牛顿法(L-BFGS)
​​原理​​:近似Hessian矩阵,降低计算
特点​​:适合小规模数据(参数少),但对随机性(如Dropout)敏感
​​适用场景​​:高维问题(如机器学习)、全批量训练的小规模模型(如逻辑回归)、图像处理、数据拟合
二阶方法在大规模神经网络中较少使用(计算代价高)

5、其他算法
(1)粒子群优化(PSO)
原理:模拟鸟群觅食行为,每个 “粒子” 通过跟踪自身最优解和群体最优解调整位置和速度,迭代寻找全局最优。
优点:实现简单,无需梯度,适合离散或连续优化问题;全局搜索能力强。
缺点:收敛速度可能较慢,参数(惯性权重、学习因子)需调优。
适用场景:组合优化问题(如旅行商问题)、神经网络结构搜索、参数优化(如支持向量机的核参数)
(2) 遗传算法(GA)
原理:模拟生物进化过程,通过 “选择、交叉、变异” 操作迭代优化种群,保留适应度高的个体(解)
优点:全局搜索能力强,适合复杂多峰函数优化;鲁棒性好(对噪声不敏感)
缺点:计算成本高,收敛速度慢,易陷入局部最优(早熟)
适用场景:函数优化、路径规划、特征选择、超参数优化(如大规模模型的超参数搜索)
(3) 模拟退火算法( SA)
原理:模拟物理中 “退火” 过程,初始时接受较差解的概率高(高温),随温度降低逐渐降低接受概率,最终收敛到最优解。
优点:能有效跳出局部最优,适合单峰或多峰函数的全局优化。
缺点:收敛速度慢,温度参数(冷却速率)难调整。
适用场景:组合优化问题(如车间调度)、图像分割、神经网络权重优化
(4)进化算法(EA)​​
​​原理​​:模拟生物进化(选择、交叉、变异),在解空间中随机搜索
​​特点​​:无需梯度,可处理离散/非凸问题,但计算成本高
适用场景​​:适合特殊场景,但需大量计算资源;强化学习(如ES)、超参数优化、黑箱优化问题
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐