强化学习算法概括图
强化学习分支

🧠 一文理清强化学习(RL)基本原理 —— 从直觉到公式的系统讲解

“如果监督学习是模仿老师,强化学习就是摸索世界。”
—— Richard Sutton,《Reinforcement Learning: An Introduction》

强化学习(Reinforcement Learning, RL)是人工智能中最接近“智能本质”的领域之一。它不是简单地拟合输入输出,而是让一个智能体(agent)在与环境的交互中,通过试错学习最优行为策略
这也是 AlphaGo、自动驾驶、机器人控制和智能推荐的核心算法思想。

本文将系统讲清楚 RL 的全景逻辑,从直觉出发,逐步深入数理原理与算法框架。


🌍 一、强化学习的故事:智能体与环境

你可以把强化学习想象成这样一个游戏:

智能体(agent)置身于一个环境(environment)中。
它根据所处的状态(state)选择一个动作(action)
环境随即给予它一个奖励(reward)并转移到新的状态。
智能体的目标是让自己的
长期总奖励最大化

这就像人类的日常学习过程:

  • 孩子学习走路:摔倒(负奖励),走稳(正奖励);
  • 围棋AI:赢棋(正奖励),输棋(负奖励);
  • 自动驾驶:安全通过路口(正奖励),撞到障碍(负奖励)。

强化学习研究的就是:

如何让智能体在不确定的环境中,通过不断交互和反馈,学到最优策略(optimal policy)


🧩 二、强化学习的五要素(MDP)

强化学习的理论框架通常用**马尔可夫决策过程(MDP, Markov Decision Process)**来描述。
一个 MDP 包含五个核心组成部分:

元素 符号 含义
状态 S S S 环境的可能状态集合
动作 A A A 智能体可执行的动作集合
奖励函数 R ( s , a ) R(s,a) R(s,a) 执行动作后环境返回的即时回报
状态转移概率 P ( s ′ ∣ s , a ) P(s' | s,a) P(ss,a) 执行动作后环境转移到新状态的概率
策略 π ( a ∣ s ) \pi(a | s) π(as) 智能体在状态下选择动作的规则

“马尔可夫”意味着:未来的状态只取决于当前状态和动作,而与过去的历史无关。

在这里插入图片描述

例子
假设一个小车在轨道上移动,状态是它的位置和速度,动作是“加速”或“减速”,奖励是“离目标越近奖励越高”,这就是一个 MDP。


🎯 三、强化学习的目标:最大化期望回报

智能体的目标不是追求一次奖励最大,而是希望长期收益最大
因此定义折扣回报(discounted return)

G t = r t + γ r t + 1 + γ 2 r t + 2 + ⋯ G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \cdots Gt=rt+γrt+1+γ2rt+2+

其中 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1]折扣因子(discount factor),代表未来奖励的重要程度。
γ = 0.9 \gamma = 0.9 γ=0.9,说明未来的奖励会被略微折扣,但仍有较大影响。

强化学习的优化目标是:

J ( π ) = E π [ G t ] J(\pi) = \mathbb{E}_\pi[G_t] J(π)=Eπ[Gt]

也就是寻找最优策略:
π ∗ = arg ⁡ max ⁡ π J ( π ) \pi^* = \arg\max_\pi J(\pi) π=argπmaxJ(π)


🧭 四、值函数(Value Function)与Q函数(Action Value Function)

强化学习的关键思想是“评价行为好坏”,状态价值函数和动作价值函数的概念非常重要,这是所有强化学习算法设计优化的对象。

强化学习中定义了两种值函数,在一个给定策略 π ( a ∣ s ) \pi(a|s) π(as)下:

状态价值函数(State Value Function)

V π ( s ) = E π [ ∑ t = 0 ∞ γ t r ( s t , a t )   ∣   s 0 = s ] V^\pi(s) = \mathbb{E}_\pi\Big[\sum_{t=0}^{\infty} \gamma^t r(s_t,a_t)\ \Big|\ s_0 = s\Big] Vπ(s)=Eπ[t=0γtr(st,at)   s0=s]

表示:从状态 s s s出发,按策略 π \pi π 行动所能获得的期望总折扣回报。
动作价值函数(Action Value Function)
Q π ( s , a ) = E π [ ∑ t = 0 ∞ γ t r ( s t , a t )   ∣   s 0 = s , a 0 = a ] Q^\pi(s,a) = \mathbb{E}_\pi\Big[\sum_{t=0}^{\infty} \gamma^t r(s_t,a_t)\ \Big|\ s_0 = s, a_0 = a\Big] Qπ(s,a)=Eπ[t=0γtr(st,at)   s0=s,a0=a]
表示:从状态 s s s 出发,先执行动作 a a a,然后再按策略 π \pi π 行动所能获得的期望总折扣回报。

这两个函数通过 策略 π \pi π的期望直接联系起来:
V π ( s ) = E a ∼ π ( ⋅ ∣ s ) [ Q π ( s , a ) ] = ∑ a π ( a ∣ s ) Q π ( s , a ) \boxed{V^\pi(s) = \mathbb{E}_{a\sim\pi(\cdot|s)}[Q^\pi(s,a)] = \sum_a \pi(a|s) Q^\pi(s,a)} Vπ(s)=Eaπ(s)[Qπ(s,a)]=aπ(as)Qπ(s,a)
也就是说,状态价值是对该状态下所有动作价值的加权平均,权重是策略在该状态下选择各动作的概率。

求解强化学习问题可分为基于价值的方法和基于策略的方法,基于价值的方法核心是基于贝尔曼方程求价值函数(状态价值函数 V V V或动作价值函数 Q Q Q),再基于价值函数推出策略 π \pi π

  • 贝尔曼方程定义:也称为贝尔曼期望方程,定义了状态之间的递归关系,用于计算价值函数(包含状态价值函数 V V V和动作价值函数 Q Q Q)在给定策略下采样轨迹上的期望。
  • 马尔可夫奖励过程的贝尔曼方程(状态价值函数 V V V
    V ( s ) = R ( s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s ) V ( s ′ ) V(s) = R(s) + \gamma \sum_{s' \in S} p(s'|s)V(s') V(s)=R(s)+γsSp(ss)V(s)
    其中, R ( s ) R(s) R(s)是当前状态 s s s下的即时奖励, s ′ s' s是未来状态, p ( s ′ ∣ s ) p(s'|s) p(ss)是从状态 s s s转移到 s ′ s' s的概率, γ \gamma γ是折扣因子。
  • 马尔可夫决策过程的贝尔曼方程
    • 状态价值函数 V V V
      V π ( s ) = E π [ R ( s , a ) + γ V π ( s t + 1 ) ∣ s t = s ] V_{\pi}(s) = \mathbb{E}_{\pi}[R(s, a) + \gamma V_{\pi}(s_{t+1})|s_t = s] Vπ(s)=Eπ[R(s,a)+γVπ(st+1)st=s]
    • 动作价值函数 Q Q Q
      Q π ( s , a ) = E π [ R ( s , a ) + γ Q π ( s t + 1 , a t + 1 ) ∣ s t = s , a t = a ] Q_{\pi}(s, a) = \mathbb{E}_{\pi}[R(s, a) + \gamma Q_{\pi}(s_{t+1}, a_{t+1})|s_t = s, a_t = a] Qπ(s,a)=Eπ[R(s,a)+γQπ(st+1,at+1)st=s,at=a]
  • 核心意义:表示当前状态与未来状态的迭代关系,当前状态的价值函数可通过下个状态的价值函数计算。由动态规划创始人理查德·贝尔曼提出,也叫动态规划方程。

⚙️ 五、RL算法家族树

强化学习算法众多,但核心可归为三大类:

基于价值学习的算法(Value-based)

基于值学习的目标是学习到一个Q函数,即最有动作价值函数,这个函数可以作为‘先知’去预测在未来的累积奖励期望。在 t t t时刻,Q函数预测那个动作能获得最大收益,因此如何让Q函数评估动作至关重要,Q函数的优化只要通过TD算法是它的核心。

目标:学习最优动作价值函数 Q ∗ ( s , a ) Q^*(s,a) Q(s,a),然后用它选最优动作。
代表算法:

  • Q-learning(离线更新)
  • SARSA(在线更新)
  • Deep Q-Network (DQN) —— 用深度网络逼近 Q 函数

更新公式(Q-learning):
Q ( s , a ) ← Q ( s , a ) + α [ r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)] Q(s,a)Q(s,a)+α[r+γamaxQ(s,a)Q(s,a)]

这样可能不是很好理解,可以看下面的推导:

Q ( s t , a t , ; w ) ≈ r t + γ ⋅ max ⁡ a ∈ A Q ( s t + 1 , a ; w ) Q(s_t,a_t,;w) \approx r_t + \gamma \cdot \max_{a \in \mathcal{A} } Q(s_{t+1},a;w) Q(st,at,;w)rt+γaAmaxQ(st+1,a;w)
左边表示当前Q函数在状态 s t s_t st的动作预估值,右边表示在状态 s s s,以及在 t t t时刻执行动作获得的奖励 r t r t rt。我们将左边部分视为 q q q,右边部分视为 y y y。它们两者都是在 t t t时刻对动作价值的估计。由于右边是基于部分事实,即 t t t时刻的奖励进行估计的,因此右边的估计会更加准确。我们需要让左边的估计靠近右边。定义损失函数:
L ( w ) = 1 2 [ q − y ] 2 \mathcal{L}(w) = \frac{1}{2}[q-y]^2 L(w)=21[qy]2
假设y是常数,计算L关于w的梯度:
∇ w L ( w ) = ( q − y ) ⋅ ∇ w Q ( s t , a t ; w ) \nabla_w \mathcal{L}(w) = (q-y)\cdot \nabla_w Q(s_t,a_t;w) wL(w)=(qy)wQ(st,at;w)
做一步梯度下降,可以让 q q q更加接近 y y y
w ← w − α ⋅ δ t ⋅ ∇ w Q ( s t , a t ; w ) w \gets w - \alpha \cdot \delta_t \cdot \nabla_w Q(s_t,a_t;w) wwαδtwQ(st,at;w)
上面就是训练DQN的TD算法。

Q-learning 让智能体通过不断试探获得最优动作价值表。
DQN 则把传统表格替换为神经网络,实现从像素图像到动作的端到端决策。


基于策略学习的算法(Policy-based)

策略梯度定理

如果一个策略很好,那么对应的状态价值 V π ( S ) V_\pi(S) Vπ(S)的均值应该很大,因此我们可以定义目标函数:
J ( π θ ) = E S [ V π ( S ) ] J(\pi_\theta) = \mathbb{E}_{\mathcal{S}} [V_{\pi}(S)] J(πθ)=ES[Vπ(S)]
这个目标函数排除了状态 S S S的因素,只依赖于策略网络 π \pi π的参数 θ \theta θ,即策略越好,则 π θ \pi_\theta πθ越大,所以策略学习可以描述为这样一个优化问题:
max ⁡ θ J ( π θ ) \max_\theta J(\pi_\theta) θmaxJ(πθ)

策略梯度定理证明:
∇ θ J ( θ ) = E S [ E A ∼ π ( ⋅ ∣ S ; θ ) [ Q π ( S , A ) ∗ ] ∇ θ I n π ( A ∣ S ; θ ) ] \nabla_\theta J(\theta)=\mathbb{E}_S[ \mathbb{E}_{A\sim \pi(\cdot | S; \theta )} [Q_\pi(S,A)*] \nabla_\theta In \pi(A|S;\theta ) ] θJ(θ)=ES[EAπ(S;θ)[Qπ(S,A)]θI(AS;θ)]
策略梯度关键在于如何固定动作价值函数 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)

代表算法:

  • REINFORCE(最基础的策略梯度,其实就是用蒙特卡洛方法近似 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)
  • Actor-Critic (用价值网络(神经网络)近似 Q π ( s , a ) Q_{\pi}(s,a) Qπ(s,a)
Actor-Critic算法

在这里插入图片描述


PPO与GRPO以大模型训练为例

在这里插入图片描述

【DeepSeek】一文详解GRPO算法——为什么能减少大模型训练资源

在掌握了强化学习的基本概念之后,我们将深入探讨PPO算法与大语言模型相结合的详细内容。为了更好地抓住关键概念,我们的讲解会采用自顶向下的形式。首先记住RLHF中的PPO算法由4个核心模型和两个损失函数组成,这4个模型分别如下。

  • 演员模型(actor model)。演员模型的参数来源于RLHF过程中的第一步提前准备好的监督微调模型。该模型不仅参与训练,也是PPO过程中需要进行对齐的语言模型,它是我们强化学习训练的主要目标和最终输出。该模型被训练用来)对齐人类偏好的模型,也被称为"策略模型"(policy model)。
  • 评论家模型(critic model)。评论家模型的参数来源于先前训练好的奖励模型。模型参数参与反向传播,用来预测生成回复的未来累积奖励。以上两个模型都参与训练,其参数会发生梯度的反向传播。

下面两个模型虽然不直接参与反向传播,但在PPO训练过程中具有特定的作用。

  • 参考模型(referencemodel)。参考模型的参数来源于RLHF过程中的第一步的监督微调
    模型的备份参数。参考模型的参数在训练过程中不会发生变化,它的主要作用是帮助演
    员模型在训练中避免过于极端的变化。
  • 奖励模型(reward model)。奖励模型的参数来源于RLHF过程中的第一步提前训练好的
    奖励模型。奖励模型的参数在训练过程中不会发生变化,它的主要功能是输出奖励分数
    来评估回复质量的好坏。

PPO算法

J P P O ( θ ) = E [ q ∼ P ( Q ) , o ∼ π θ o l d ( O ∣ q ) ] 1 ∣ o ∣ ∑ t = 1 ∣ o ∣ min ⁡ [ π θ ( o t ∣ q , o < t ) π θ o l d ( o t ∣ q , o < t ) A t , clip ⁡ ( π θ ( o t ∣ q , o < t ) π θ o l d ( o t ∣ q , o < t ) , 1 − ε , 1 + ε ) A t ] \begin{array}{l} \left.\mathcal{J}_{P P O}(\theta)=\mathbb{E}_{\left[q \sim P(Q), o \sim \pi_{\theta_{o l d}}\right.}(O \mid q)\right] \frac{1}{|o|} \sum_{t=1}^{|o|} \\ \min \left[\frac{\pi_{\theta}\left(o_{t} \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_{t} \mid q, o_{<t}\right)} A_{t}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{t} \mid q, o_{<t}\right)}{\pi_{\theta_{o l d}}\left(o_{t} \mid q, o_{<t}\right)}, 1-\varepsilon, 1+\varepsilon\right) A_{t}\right] \end{array} JPPO(θ)=E[qP(Q),oπθold(Oq)]o1t=1omin[πθold(otq,o<t)πθ(otq,o<t)At,clip(πθold(otq,o<t)πθ(otq,o<t),1ε,1+ε)At]

L G R P O ( θ ) = − 1 G ∑ i = 1 G 1 ∣ o i ∣ ∑ t = 1 ∣ o i ∣ [ min ⁡ ( π θ ( o i , t ∣ q , o i , < t ) π θ old  ( o i , t ∣ q , o i , < t ) A ^ i , t , clip ⁡ ( π θ ( o i , t ∣ q , o i , < t ) π θ old  ( o i , t ∣ q , o i , < t ) , 1 − ϵ , 1 + ϵ ) A ^ i , t ) − β D K L [ π θ ∥ π ref  ] ] \begin{array}{l} \mathcal{L}_{\mathrm{GRPO}}(\theta)=-\frac{1}{G} \sum_{i=1}^{G} \frac{1}{\left|o_{i}\right|} \\ \sum_{t=1}^{\left|o_{i}\right|}\left[\min \left(\frac{\pi_{\theta}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{\text {old }}}\left(o_{i, t} \mid q, o_{i,<t}\right)} \hat{A}_{i, t}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{i, t} \mid q, o_{i,<t}\right)}{\pi_{\theta_{\text {old }}}\left(o_{i, t} \mid q, o_{i,<t}\right)}, 1-\epsilon, 1+\epsilon\right) \hat{A}_{i, t}\right)-\beta \mathbb{D}_{\mathrm{KL}}\left[\pi_{\theta} \| \pi_{\text {ref }}\right]\right] \end{array} LGRPO(θ)=G1i=1Goi1t=1oi[min(πθold (oi,tq,oi,<t)πθ(oi,tq,oi,<t)A^i,t,clip(πθold (oi,tq,oi,<t)πθ(oi,tq,oi,<t),1ϵ,1+ϵ)A^i,t)βDKL[πθπref ]]

Advantage(优势函数) 介绍

基本定义
在强化学习中,智能体(Agent)在状态 ( s ) 下采取动作 ( a ),会获得一个回报。我们常用以下几个函数来描述“好坏”:

名称 符号 含义
状态价值函数 V ( s ) V(s) V(s) 在状态 s s s 下能获得的期望回报
动作价值函数 Q ( s , a ) Q(s, a) Q(s,a) 在状态 s s s 下采取动作 a a a 后的期望回报
优势函数 A ( s , a ) A(s, a) A(s,a) 动作 a a a 相对平均水平(即 V ( s ) V(s) V(s))的好坏差距

优势函数(Advantage Function)的数学定义是:
A ( s , a ) = Q ( s , a ) − V ( s ) A(s, a) = Q(s, a) - V(s) A(s,a)=Q(s,a)V(s)
其中, Q ( s , a ) Q(s, a) Q(s,a)表示当前动作带来的具体收益; V ( s ) V(s) V(s):在该状态下平均水平的收益;差值 A ( s , a ) A(s,a) A(s,a):表示该动作比平均水平好多少,如果:( A ( s , a ) A(s,a) A(s,a) > 0 ):说明动作 a a a比平均表现更好,策略应该更倾向于选择这个动作;( A ( s , a ) A(s,a) A(s,a) < 0 ):说明动作 a a a比平均表现更差,策略应该减少选择这个动作的概率。

🧠 六、探索与利用的平衡(Exploration vs Exploitation)

强化学习面临的核心困境是:

是去探索未知(exploration),还是利用已有经验(exploitation)?

  • 如果只利用当前最优动作,可能陷入局部最优;
  • 如果过度探索,学习效率低下。

常见的平衡策略有:

  • ε-greedy:以 ε 的概率随机动作;
  • Softmax 策略:按 Q 值概率分布选择动作;
  • UCB / Thompson Sampling:用于Bandit问题中的平衡;
  • 噪声注入(Ornstein–Uhlenbeck / Gaussian):用于连续动作。

探索–利用平衡是 RL 成败的关键之一。

🧩 七、强化学习的关键难点

虽然 RL 很酷,但实际训练却“反人类”地困难:

难点 说明
样本效率低 需要大量交互数据(比监督学习高几个数量级)
奖励稀疏 很多任务(如迷宫)只有终点才有奖励
不稳定 训练中容易发散(特别是深度网络)
泛化性差 在未见过的环境中策略失效
信号延迟 奖励往往不是立即可见的(credit assignment)

这些问题促使研究者发展出如 奖励塑形、经验回放、迁移学习、多智能体RL、元强化学习(Meta-RL) 等方向。


🚀 八、强化学习的典型应用领域

领域 应用示例
游戏智能 AlphaGo、AlphaStar、Atari 智能体
机器人控制 机械臂、无人机、四足机器人行走
自动驾驶 动态路径规划、车道决策
推荐系统 动态用户建模与长期收益最大化
金融交易 强化交易策略、风险控制
智能调度 云计算任务调度、5G资源分配
医疗决策 药物剂量调节、治疗方案优化

📚 九、强化学习的发展脉络(时间线)

年份 里程碑 说明
1952 Samuel’s Checkers 最早的自学习程序
1989 Q-learning 提出 RL的奠基算法
2013 DeepMind DQN 深度学习 + RL 的里程碑
2016 AlphaGo RL走入公众视野
2018 PPO / SAC 稳定高效的现代RL框架
2023+ 模型化RL / 世界模型 RL + 生成模型的新范式

🔍 十、强化学习的未来趋势

  1. 模型化强化学习(Model-based RL):通过学习环境动力学模型,提高样本效率。
  2. 多智能体强化学习(MARL):多个智能体协作或博弈,如自动车队、虚拟群体。
  3. 层次化RL(Hierarchical RL):分解复杂任务为子目标,提高可解释性。
  4. 世界模型(World Models):结合生成模型(VAE、Diffusion)模拟环境。
  5. 与大语言模型融合(LLM + RL):如 ChatGPT 中的 RLHF(强化学习人类反馈)。

🏁 总结:强化学习的全景图

类别 核心思想 代表算法
基于值 学 Q 值函数 Q-learning, DQN
基于策略 直接优化策略 REINFORCE, PPO
Actor–Critic 二者结合 A3C, DDPG, TD3, SAC
模型化RL 学习环境模型 MBPO, Dreamer
进阶RL 多智能体、元学习、自博弈 AlphaStar, Meta-RL

一句话总结:

强化学习是一个让机器学会“如何行动”的学问。它的核心是通过试错与奖励信号优化策略,以实现长期收益最大化。


📘 延伸阅读与资源推荐

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐