【深度学习】Adam（Adaptive Moment Estimation）优化算法

Adam算法结合了动量法（Momentum）和RMSProp的思想，能够自适应调整每个参数的学习率。通过动态调整每个参数的学习率，在非平稳目标（如深度神经网络的损失函数）中表现优异。

辰尘_星启

1242人浏览 · 2025-03-06 21:53:10

辰尘_星启 · 2025-03-06 21:53:10 发布

概述

Adam算法结合了动量法（Momentum）和RMSProp的思想，能够自适应调整每个参数的学习率。通过动态调整每个参数的学习率，在非平稳目标（如深度神经网络的损失函数）中表现优异

基本概念

动量（Momentum）：跟踪梯度的指数衰减平均（一阶矩），加速收敛并减少震荡。
自适应学习率：跟踪梯度平方的指数衰减平均（二阶矩），调整不同参数的学习率。
设模型参数为 $θ\theta$ ，损失函数为 $J(θ)J(\theta)$ ，梯度为 $gt=∇θJ(θt)g_t = \nabla_\theta J(\theta_t)$ 。Adam 的更新步骤如下：

步骤 1：计算一阶矩（动量）

$m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t$

含义：对梯度做指数移动平均（EMA），保留历史梯度方向的信息。
作用：缓解梯度震荡，加速收敛（类似物理中的动量）。
超参数： $β1\beta_1$ （通常设为 0.9），控制历史梯度的衰减速度。

步骤 2：计算二阶矩（自适应学习率）

$v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2$

含义：对梯度平方做指数移动平均，反映梯度的变化幅度。
作用：对频繁更新的参数减小学习率，对稀疏参数增大学习率。
超参数： $β2\beta_2$ （通常设为 0.999），控制梯度平方的衰减速度。

步骤 3：偏差修正（Bias Correction）

由于初始时刻 $m_0 = 0, v_0 = 0$ ，早期估计会偏向于零。Adam 通过以下修正消除偏差：
$m^t=mt1−β1t,v^t=vt1−β2t \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t}$

含义：随着时间步 (t) 增大，分母 $\beta^t$ 逐渐趋近于 1，修正早期估计的偏差。
作用：确保训练初期（ $t$ 较小时）的更新量不会过小。

步骤 4：参数更新

$θt+1=θt−α⋅m^tv^t+ϵ \theta_{t+1} = \theta_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$

含义：用修正后的动量 $m^t\hat{m}_t$ 除以修正后的梯度平方根 $v^t\sqrt{\hat{v}_t}$ ，再乘以学习率 $α\alpha$ 。
作用：
- $m^t\hat{m}_t$ ：提供稳定的更新方向（类似动量）。
- $1v^t+ϵ\frac{1}{\sqrt{\hat{v}_t} + \epsilon}$ ：自适应调整学习率，抑制梯度变化大的参数的学习率。
超参数：
- $α\alpha$ ：基础学习率（通常需手动调节）。
- $ϵ\epsilon$ ：极小值（如 $10^{-8}$ ），防止除以零。

为什么 Adam 能帮助模型找到更好的参数？

Adam 的有效性源于以下设计：

1. 自适应学习率

对每个参数独立调整学习率：梯度大的参数学习率小，梯度小的参数学习率大。
优势：处理稀疏梯度（如 NLP 任务）时效果显著，避免手动调节学习率的麻烦。

2. 动量机制

通过一阶矩 $m_t$ 保留历史梯度方向，加速收敛并减少震荡。
优势：在梯度方向变化剧烈时（如鞍点附近），动量帮助参数快速通过平缓区域。

3. 偏差修正

修正早期估计的偏差，避免训练初期更新量过小。
优势：提升训练稳定性，尤其在前几个 epoch 中。

4. 鲁棒性

对超参数选择相对鲁棒（如 $β1,β2\beta_1, \beta_2$ 通常固定为 0.9 和 0.999）。
优势：广泛适用于不同任务（CV、NLP 等），减少调参成本。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【愚公系列】《人工智能70年》042-数据科学崛起（造就神奇的数据科学）

2048 AI社区

深度研究框架 ByteDance DeerFlow

DeerFlow是字节跳动开源的多模态AI研究框架，集成了文本分析、代码执行、图像/音频合成等功能。其核心采用LangGraph构建的多代理系统，包含协调器、研究员、程序员等角色，支持从信息收集到报告生成的完整研究流程。项目已商业化部署至火山引擎，提供在线服务和技术文档生成等企业级应用。技术栈基于Python 3.12+和FastAPI，整合了LiteLLM、多种搜索引擎及私有知识库，具备模块化扩

2048 AI社区

云计算C++服务的内存分配器调优

类型感知分配：根据对象大小选择分配策略（<256B用内存池，>4KB用直接分配）高并发分配压力：单服务实例需处理每秒数万次内存请求，默认分配器成为瓶颈。内存碎片累积：长期运行后碎片率可达30%，导致分配延迟增加。AI预测分配：通过机器学习预测内存需求，预分配热点数据。安全隔离：内存分配器与机密计算结合，实现TEE内存隔离。内存绑定策略：通过numa_node控制内存分配位置。异构内存管理：结合PM