结合大语言模型理解强化学习基本概念

摘要：本文通过大语言模型(LLM)训练场景阐释强化学习核心概念。LLM作为智能体，通过生成token与环境（人类偏好标注）交互，获得即时奖励（偏好评分）并调整策略（token概率分布）。关键要素包括：状态（prompt+已生成文本）、动作（生成特定token）、策略（token选择概率）、奖励（人类评分）和回报（累积奖励）。整个过程符合马尔可夫决策过程框架，目标是优化策略使生成内容长期符合人类偏好

龙飞雪月

354人浏览 · 2026-01-31 20:54:45

龙飞雪月 · 2026-01-31 20:54:45 发布

如今大语言模型的后训练阶段是强化学习应用的主要场景之一，但是很多文章在介绍强化学习基本概念的时候，没有和大语言模型联系起来，让人不能很好理解强化学习是怎么来训练大语言模型的，因此我想在介绍强化学习基本概念的时候直接带入到大语言模型的应用场景中，这样应该会让人更好理解强化学习训练大语言模型的过程和对应的概念。

强化学习的核心思想是：智能体通过与环境持续交互，根据环境反馈的奖励信号来学习如何做出最优决策，以最大化长期累积收益。结合大语言模型对齐人类偏好的训练过程（如RLHF），我们可以更直观地理解这一框架：在此场景下，大语言模型（LLM）本身就是智能体。其环境则是一个反映人类偏好的反馈机制（通常是一个训练好的奖励模型）。LLM的动作是在每个生成步骤中，从词表中选取下一个token；其状态是当前的上下文（包括初始指令和已生成的所有token）。LLM的参数构成了它的策略——一个根据当前状态（上下文）来决定下一个token概率分布的规则。训练时，LLM基于当前策略生成完整文本，环境（奖励模型）则对此输出给出一个整体的奖励评分（反映人类偏好）。强化学习的目标，就是通过不断迭代优化LLM的参数（即其策略），使得它生成的文本能获得越来越高的长期累积奖励，从而最终使其行为与人类偏好对齐。

核心要素

智能体 (Agent) 与环境 (Environment)

智能体：是进行学习和决策的主体。在LLM的对齐训练中，待优化的大语言模型本身就是智能体。它的核心能力（即策略）是根据当前状态（文本上下文），选择生成下一个token（动作）。
环境：是智能体交互的外部世界。在LLM对齐训练中，环境主要指奖励机制，它通常由一个训练好的奖励模型（或人类标注者）充当。环境的职责是：当智能体完成一个完整的动作序列（即生成一段完整文本）后，对其整体输出给出一个奖励分数，以此评判该输出是否符合人类偏好。
交互循环：在训练过程中，智能体（LLM）与环境（奖励模型）的交互构成一个循环：智能体根据当前策略生成完整响应 → 环境给出整体奖励信号 → 智能体利用此信号更新自身参数（优化策略）→ 进入下一次迭代。此过程不断重复，直至策略稳定，使LLM能持续生成高奖励（即符合人类偏好）的文本。

状态 (State, S)

定义：在某一时刻，环境状况的描述。它包含了智能体做出决策所需的所有信息。
作用：状态是智能体观察世界的窗口，其选择下一步动作完全基于当前状态。
在LLM中的体现：在LLM人类偏好训练中，状态是“当前的prompt（用户需求）+ 已生成的文本片段”，例如，初始状态 s₀ 仅为用户prompt。当LLM根据策略选择动作 a₀（生成第一个token “祝”）后，环境（人类或奖励模型）会给予一个即时奖励 r₁，同时状态转移为 s₁，即 s₁ = s₀ + “祝”，如此循环。这些信息共同决定了LLM下一步该生成什么样的内容（比如用户prompt是“写一篇温暖的新年祝福”，已生成的文本是“祝大家新年快乐”共同决定下一个token的生成，下一个生成的token可能是万事如意中的“万”。注意本文为了方便理解token，将token简单理解为字词，实际上token是通过统计方法得到的词组）。

动作 (Action)

定义：在给定状态下，智能体可以执行的一个具体操作。
在LLM中的体现：动作即是“从词表中选择并生成下一个token”。这是一个庞大的离散动作空间（词表大小）。例如，在当前状态（Prompt及已生成文本）下，选择生成“马到成功”中的“马”字，即是一个具体的动作。
作用：智能体通过执行动作来改变环境的状态（即在文本末尾添加该token，形成新上下文），并最终影响从环境中获得的奖励。

策略 (Policy)

定义：策略是智能体的“决策规则”，它规定了在任何一个给定状态下，智能体应如何选择动作。形式上，策略 π 是一个函数，输出在状态 s 下选择各个可能动作 a 的概率分布，记作 π(a|s)。
在LLM中的体现：LLM本身就是一个参数化的策略。给定输入状态（文本上下文），其最终Softmax层的输出——词表中所有token的概率分布——就是 π(a|s)。例如，对于状态“请写马年祝福”，已生成‘祝您’”，策略可能赋予“马到成功”较高的概率，而赋予“龙腾虎跃”很低的概率。
目标：强化学习的终极目标就是通过与环境交互，寻找一个最优策略 π*，使得智能体遵循该策略时，获得的长期累积奖励期望值最大。对于LLM，就是通过训练调整其参数，使它的输出分布（策略）能最大化人类偏好奖励。

奖励 (Reward)

定义：环境反馈给智能体的标量信号，用于即时评价刚刚完成的动作（或动作序列）的好坏。它是引导智能体学习的根本信号。
在LLM对齐训练中的关键点：奖励通常具有延迟和稀疏的特性。在实际训练（如RLHF）中，奖励模型（RM）通常对完整的生成序列给出一个整体评分，而不是对序列中的每个token进行实时打分。
流程示例：
1. 生成：LLM（当前策略）根据Prompt“写一句马年新春祝福”，生成完整句子：“祝您龙年大吉，万事如意。”（其中包含了一个不合适的动作：在“马年”祝福中使用了“龙年”）。
2. 评估：环境（奖励模型）对此整个句子进行评判。由于主题偏差，它可能给出一个较低的总体奖励，例如 R = -2。
3. 学习：强化学习算法（如PPO）的核心挑战在于，如何将这个稀疏的整体奖励 R = -2 合理地“归因”或“分配”到生成这个句子所经历的每一个动作（每一个token的选择）上，特别是要识别出选择“龙”这个token是关键的错误。算法通过计算优势函数（动作价值与状态价值的差）等工具来完成这一归因，从而指导策略更新，降低未来在类似状态下生成“龙”字的概率。

回报 (Return, G_t)

定义：从当前时刻 t 开始，智能体在未来获得的累积奖励之和。由于未来的不确定性，我们通常使用折扣因子 (γ, 0≤γ≤1) 来权衡即时奖励与远期奖励的重要性。折扣回报的定义为：
G_t = R_{t+1} + γ·R_{t+2} + γ²·R_{t+3} + ...

在LLM中的理解：
在LLM生成任务中，一个“回合”（即episode）对应从开始（接收到Prompt）到结束（生成终止符或达到长度限制）的完整文本生成过程。G_t 衡量的是从生成第 t 个token的时刻起，到生成结束为止，整个剩余片段能获得的总“好评度”。

γ 接近 0（短视）：模型主要优化下一个token是否能立即获得高奖励（例如，确保下一个词非常流畅），而不太关心后续文本的整体质量。
γ 接近 1（远视）：模型会为获得更高的长期累积奖励，而可能牺牲短期奖励。例如，它可能选择一个当前看起来不太直接、但能为后续生成更精彩内容铺平道路的词语。

关键点：在LLM的人类偏好对齐训练中，奖励 R 通常是在一个完整序列（或一个段落）生成完毕后，由奖励模型给出的整体性评分。这个整体奖励需要被合理地“分配”或“归因”到生成序列中的各个动作（token）上，以指导策略更新。回报 G_t 正是这种从某个时间点看向未来的长期收益的数学表述。

价值函数 (Value Function)

价值函数是对未来的预测，它评估的是在某个状态（或执行某个动作后），按照当前策略 π 一直进行下去，平均能获得多大的累积回报（即期望回报）。它是比较不同状态或动作的长期价值的标尺。

1. 状态价值函数 (State-Value Function, v_π(s))

定义：在状态 s 下，智能体遵循策略 π 行为所能获得的期望回报。即 v_π(s) = E_π[ G_t | S_t = s ]。
在LLM中的直观理解：假设LLM当前的生成状态是 s（例如：Prompt为“写一首关于秋天的诗”，已生成“萧瑟秋风今又是”）。状态价值 v_π(s) 回答的问题是：“基于我（LLM）当前的写作风格和策略（π），从这个状态继续写完这首诗，平均能获得多高的总体评价？” 如果 v_π(s) 很高，说明当前状态很有潜力；如果很低，则可能意味着已生成的部分或当前策略导致后续很难写出好评的内容。

2. 动作价值函数 (Action-Value Function, q_π(s, a))

定义：在状态 s 下，智能体执行特定动作 a，然后一直遵循策略 π 所能获得的期望回报。即 q_π(s, a) = E_π[ G_t | S_t = s, A_t = a ]。
在LLM中的直观理解：在同样的状态 s（Prompt和已生成文本）下，动作价值 q_π(s, a) 回答的问题是：“如果我接下来选择生成‘换’这个字（动作a），然后继续按我当前的风格写完，平均能获得多高的总体评价？如果我选择生成‘起’字呢？” 它直接比较了不同下一个token的长期价值。

3. 核心关系：贝尔曼方程 (Bellman Equation)
价值函数的核心在于其递归性——当前的价值依赖于后续状态的价值。这正是贝尔曼方程所描述的：

v_π(s) = Σ_a π(a|s) * q_π(s, a)
- 解释：状态 s 的价值，等于在该状态下所有可能动作 a 的动作价值，按照策略 π 给出的概率分布的加权平均。
- LLM示例：在状态 s（“写秋诗，已生成‘萧瑟秋风今又是’”），假设策略 π 认为下一个token是“换”、“起”、“拂”的概率分别为50%、30%、20%，而它们的动作价值 q_π 经计算分别是8、5、3。那么状态价值 v_π(s) ≈ 0.5*8 + 0.3*5 + 0.2*3 = 6.1。
q_π(s, a) = R(s, a) + γ * Σ_s‘ P(s'|s,a) * v_π(s')
- 解释：动作 a 的价值，等于执行它带来的即时奖励 R(s,a)，加上折扣后的后续状态价值的期望。
- LLM特殊情形：在文本生成中，状态转移是确定的：执行动作 a（生成某个token）后，新状态 s’ 唯一确定（即 s 拼接上 a）。因此，状态转移概率 P(s'|s,a) = 1。方程简化为：q_π(s, a) = R(s, a) + γ * v_π(s')。
- LLM示例：在状态 s 下选择动作 a（生成“换”字），假设获得即时奖励 R(s,a)=1（例如，奖励模型认为“换”字在此处用得很好），并转移到新状态 s’（“…萧瑟秋风今又是，换”）。那么，q_π(s, a) = 1 + γ * v_π(s')。v_π(s‘) 则代表了在新状态下继续生成的预期长期回报。

马尔可夫决策过程（MDP）是强化学习问题的标准数学模型，它将智能体、环境、状态、动作、奖励及其动态关系形式化。一个MDP由五元组 (S, A, P, R, γ) 定义，我们可以通过LLM对齐训练来具体理解：

状态集合 (S)：所有可能状态的集合。对LLM而言，就是所有可能的文本上下文，包括无限多样的用户指令（Prompt）与任何已生成文本片段的组合。
动作集合 (A)：智能体在所有状态下可执行的动作的集合。对LLM而言，其动作空间就是词表。每一个可能的token（如“的”、“AI”、“？”）都是一个离散的动作。
状态转移函数 (P)：描述了环境的动力学。P(s'|s, a) 表示在状态 s 下执行动作 a 后，转移到状态 s' 的概率。
- 在LLM中的关键特点：文本生成是一个确定性过程。给定当前上下文（状态 s）和生成的下一个词（动作 a），下一个状态 s' 是唯一确定的（即 s 拼接上 a）。因此，对于LLM，P(s'|s, a) = 1 当且仅当 s' 等于 s + a，否则为0。
奖励函数 (R)：定义了智能体的目标。R(s, a, s') 或 R(s, a) 表示在状态 s 执行动作 a 并转移到 s' 后，所获得的期望即时奖励。
- 在LLM对齐训练中的体现：奖励函数由奖励模型（或人类标注者）实现。一个关键点是，奖励通常是稀疏且延迟的：奖励模型并非对每个 (s, a) 对打分，而是在智能体完成一个完整的动作序列（生成一整段文本，到达终止状态）后，才给出一个整体的奖励信号 R。这个整体奖励反映了该完整序列符合人类偏好的程度。
折扣因子 (γ)：一个介于0和1之间的数，用于计算回报，以衡量未来奖励的当前价值。γ 越接近1，智能体越“有远见”，越重视长期收益；γ 越接近0，则越“短视”，只关注即时奖励。

核心假设：马尔可夫性质
MDP的有效性基于一个核心假设——马尔可夫性质，即“未来只取决于现在，而与过去无关”。具体来说，下一个状态 s' 和即时奖励 r 的分布，仅由当前状态 s 和当前动作 a 决定，而与之前的所有状态和动作历史无关。
在LLM中，这自然成立：决定下一个词概率分布的，是且仅是当前的整个文本上下文（状态 s），而不是这个上下文是如何一步步生成出来的。

总结

将大语言模型（LLM）的人类偏好对齐训练置于强化学习框架下，其核心逻辑可概括为：

交互循环：智能体（待优化的LLM）与环境（模拟人类偏好的奖励模型）持续交互。智能体根据当前状态（文本上下文），依据其策略（参数化的生成模型）选择动作（生成下一个token），从而形成完整响应。
反馈与目标：环境对此完整响应给出一个整体的奖励评分。强化学习的目标，就是通过不断迭代，优化LLM的策略参数，以最大化其在所有可能状态下获得的期望累积奖励，即生成最符合人类偏好的文本。
理论框架：上述所有要素——状态、动作、奖励、策略及其确定性的状态转移——被统一形式化地描述为一个马尔可夫决策过程。MDP及其核心的马尔可夫性质（未来状态仅取决于当前状态与动作），为分析和优化这一学习过程提供了坚实的数学基础。

至此，我们已建立起将LLM训练视为智能体在环境中学习决策的基本概念体系。这些概念是理解后续如何应用策略梯度（Policy Gradient）、近端策略优化（PPO）等具体算法来更新LLM参数、实现偏好对齐的基石。在接下来的文章中，我们将深入这些算法，探讨它们如何在实际训练中运用奖励信号来塑造大模型的生成行为。