LLM对齐优化：从PPO到GRPO和GSPO的演进（收藏学习）！

本文详细介绍了大模型对齐算法的演进历程，重点分析了PPO算法存在的奖励黑客问题，以及GRPO和GSPO如何通过组相对策略优化来解决这一问题。GRPO利用组内相对评分替代传统优势函数，而GSPO进一步在序列级别进行裁剪，提供更可靠的学习信号，使模型训练更加鲁棒，更好地实现HHH原则（有帮助、无害、诚实）。

发菜君

1256人浏览 · 2025-11-02 09:15:00

发菜君 · 2025-11-02 09:15:00 发布

上一节我们讲到，最初的A2C算法存在两个致命问题：数据效率低下和迭代更新不稳定。这两个致命问题导致了A2C算法无法直接应用于大模型的训练。

科学家们因此而引出了TRPO和PPO这两种更强的算法，当数据效率提上去之后，算法的另一个短板也就暴露出来了：模型学的过于快，以致于可以欺骗评委了，这就是著名的奖励黑客问题（Reward Hacking， or Over-optimization）。显然这个问题不会出现在数据利用效率低的时候，这个也从侧面说明事情的发展是螺旋上升的XD

另一个则是代表了大模型对齐（Alignment）中的更为根本的问题。

对齐 Alignment

让我们先偏一个题。

可能有些人对大模型不熟悉，会问：什么是对齐（Alignment）？

必须明确的是，虽然在大模型时代，这个词语被大家熟知，但是对齐的概念早在1970年代就出现了，不过那个时候更多的是哲学意义上，大家常说的阿西莫夫三定律也是对齐的一个形式。在2015-2016第一波深度学习兴起的时候，AI安全社区就在担心深度人工智能可能会危害人类，因此必须让AI的目标、行为和人类的意图价值观相符合，在大模型时代，这个目标则更加具有现实意义，而且更加具有紧迫性。

关于对齐的最终目标，在Christiano et al., 2017: Deep Reinforcement Learning from Human Preferences 和 OpenAI, 2022: Training language models to follow instructions with human feedback 中均探讨了如何让AI能够更好的服从人类的命令，让AI不为恶。现在采用最多的说法是 Anthropic 在 2022年发表的论文Constitutional AI 提出的 HHH原则，即：让模型 Helpful（有帮助）、Harmless（无害）、Honest（诚实）。

弄明白了什么是对齐，接下来我们要解决的是如何在实际的操作中执行模型的对齐？即：如何把人类的价值观教给AI？

如何进行对齐

价值观是一个虚无缥缈的东西，很多人类都不一定有价值观，而且绝大多数人都意识不到自己的价值观是什么（笑）。因此当前还没有办法通过标记一个“价值观”数据集的方式，来通过监督学习（模仿学习）来教会LLM勤劳勇敢诚信友善。同时，价值观也是一个通过比较之下存在的东西，我们无法描述诚信 – 诚信绝对不是100% 的说实话，比如抗日战争时期针对敌人，一定是不能诚信的。这一切都是基于人类的道德之上的。

因此一个朴素的训练观念就出现了：我们可以提供多个样例，然后告诉模型哪些输出会得到更高的奖励。（跟奖励见义勇为一样！）

显然这就是强化学习的训练范式，也是我们讲到A2C和PPO存在的目标。

除了上一节讲到的强化学习在现实不work的原理，还有一个困扰强化学习的现状：奖励的设计。b站有个初学RL的小姐姐做的视频，他的agent在游戏一开始就会一头撞dead，无论怎么调模型都没有办法解决，原因就是奖励函数设计的不合理：因为每存活1分钟都会导致扣分，尝试多次完成任务得到的分数不如直接结束游戏高。这个就是 reward 不合理导致的。也是一种奖励黑客的存在形式。

我们主要关注于训练层面的对齐，也即在基座大模型上进行对齐。一般我们拿到一个基座大模型会进行两种对齐：指令微调和过滤去偏，或者统称为指令遵循。这两个模型的对齐方式和结果，我们在本系列的后续文章会讲，这里不展开。

TRPO、PPO、GRPO 和GSPO都是提升模型指令遵循的能力，因此也会受到奖励黑客的影响。

两个问题

1. PPO存在的问题一：奖励模型被“黑” (Reward Hacking / Over-optimization)

当Actor（策略模型）变得越来越强大时，它会像一个极致的“应试考生”。它的唯一目标就是在RM这位“考官”面前拿到高分。久而久之，它可能会发现RM的评分漏洞，生成一些在RM看来分数很高，但对人类来说却毫无意义、重复啰嗦甚至是有害的回答。这就是所谓的“奖励 hacking”。

例子：模型发现只要不断重复“当然，我很乐意帮助您！”，奖励分数就会略微提高，于是它可能生成一段充满这种句子的回答。

2. PPO存在的问题二：单一奖励的局限性与“对齐税”

正如我前文提到的，人类的偏好是复杂且多维度的。我们希望AI的回答既有帮助 (Helpful)，又无害 (Harmless)，还要诚实 (Honest)。用一个单一的奖励分数来概括这一切，本身就是一种信息的巨大损失。过度优化这个单一分数，常常会导致“对齐税”——模型为了变得更“乐于助人”，可能会牺牲一些创造性和知识的广度，这是GSPO的最新发现。

GRPO算法

GRPO，全称是Group Relative Policy Optimization，是DeepSeek 在其R1模型中使用的一种PPO的变体。

首先回顾一下之前讲过的PPO的算法，裁剪版本（PPO-Clip）将比率裁剪以保证稳定：

在 Actor–Critic 流程中，优势 (A_t) 通常由 Critic（价值网络）给出，例如用 GAE 估计。我们上文讲到，我们无法直接使用SFT的防止直接教授给LLM以“价值”，而价值一般是通过比较得来的，因此在价值对齐的方向天然存在一个组内比较信息（group relative）。基于这个思想，GRPO进一步把PPO中的优势比较，改为了基于组内候选的相对评分，这个改动的好处我们在后续讲述，最初PPO是为了训练的稳定性，使用了优势函数去替代了直接的动作价值评分，这里GRPO使用组内候选相对评分去进一步替代了优势函数。

对于一个给定的输入（prompt），我们用旧策略或当前策略生成一个组（group）包含个完整序列输出（候选回答）：
对每个候选输出计算一个外部 reward（可以是人类偏好、自动判分或判定正确/错误等）：
组内基线（group baseline）GRPO 常用组内平均（或加权平均）作为基线：
组内优势（group-wise advantage）把每个候选相对于组内基线的差定义为优势估计：
为减少不同组之间尺度差异，常做标准化：

因为奖励是序列级的，GRPO 通常把重要性比率定义在整个序列上（仍然是Token级的重要性，通过序列级进行平均）：

（实践中，为了数值稳定，会对 log-prob 做长度归一化或温度缩放等处理；但核心思想是采用序列概率比率。）

到这里我们就完成了GRPO的函数替代，可以得到GRPO的 surrogate objective：

PPO的重要性采样和GRPO的重要性采样对比（举例）

PPO 用于 逐时间步的状态–动作 (s, a) 更新。
重要性比率 (IS ratio) 定义在 单个动作 上：

假设在某一步状态，动作空间是。

旧策略概率：
新策略概率：

如果当时采取的动作是，则：

解释：新策略比旧策略更倾向于，更新时会对优势放大约 1.67 倍。

GRPO 面向 序列生成任务（例如语言模型生成），奖励只在 完整序列 上给出。
因此 IS ratio 定义在 整个序列 上：

其中

假设输入，输出序列。

旧策略：

所以序列概率：
新策略：

所以序列概率：
比率：

解释：新策略生成整个序列的概率比旧策略大 2.4 倍。更新时，这个比率会放大对应的序列优势信号。

为什么GRPO能缓解奖励黑客现象

PPO是传统的Actor Critic模型，也是依靠一个神经网络来评判模型的输出是否与人类的价值观一致，这样的评判有可能会存在系统性偏差，比如这个模型总是认为长答案会得分更高，那么演员模型会利用这个漏洞而骗取高分，虽然得分很高但是不满足HHH原则。

因此GRPO通过去掉这个裁判模型来缓解这个问题，用超越组间的表现，通过引入多个样本的平均来进一步的抵消偏差，策略学习的只是相对的好坏，而不是之前的绝对值。

而且如果是某个极端样本的得分很高，比如在PPO的裁判网络中，裁判非常喜欢“好的”这个词，那么有可能会将整个训练带偏。

因此PPO非常容易收敛到单一漏洞利用上，而GRPO则比较相对优势，避免了单一技巧取胜的情况，训练过程会更加的鲁棒。

GSPO算法

终于到了这个系列的目标了，我们从A2C算法一路走来，目标就是GSPO。

GSPO 出自Qwen团队的论文《Group Sequence Policy Optimization》它仍然沿用了Group Relative的计算方法，因为group relative 来替代价值判断函数，对模型来抵抗奖励黑客非常有价值，GSPO主要在两个方面对GRPO做了升级，目标是让训练的过程中更加的鲁棒，

首先GSPO直接使用序列整体概率比率，而不是GRPO在 token 级别计算比率再累乘；避免 token 累乘带来的数值不稳定和方差放大问题。

其次 GSPO 将 PPO 的 clipping 直接应用在序列级：

GRPO 的做法（Token-level Clipping）: 在一个生成的回应中，对每一个单独的Token进行判断。如果某个Token的概率变化过大，就只裁剪这一个Token。这种方式非常“小心翼翼”，尽可能多地保留数据。

GSPO 的做法（Sequence-level Clipping）: 更加“大刀阔斧”。它判断的是整个回应序列。如果整个回应被认为是“不好”的（例如，其优势低于某个阈值），那么整个回应序列的所有Token都会被裁剪掉，不参与训练。

它的按整个序列裁剪，提供了一个“更可靠和有效”的学习信号。如果一个回应整体是好的，就用完整的、连贯的上下文来学习；如果一个回应整体是坏的，就果断地整个丢弃，避免模型被其中无意义的局部细节干扰。这确保了模型每次学习都是基于一个“好榜样”的完整逻辑，信号更清晰、质量更高。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【值得收藏】从零开始学RAG：检索增强生成技术详解，解决大模型幻觉问题的最佳实践

2048 AI社区

果蔬检测数据集VOC+YOLO格式16099张72类别

数据集格式：Pascal VOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)chickenbreast (鸡胸肉) 框数 = 648。peanutbutter (花生酱) 框数 = 173。cauliflower (花椰菜) 框数 = 450。bakingsoda (小苏打) 框数 = 299。bellpepper (甜

2048 AI社区

（大模型训练）高性能网络(InfiniBand/RoCE) 详细学习笔记第六章：【重难点】性能调优（上）：系统与网卡参数

第六章摘要：性能调优的关键框架与实践性能调优需遵循"调优金字塔"模型：操作系统层是基础，需优化CPU亲和性与中断绑定（解决NUMA跨节点访问问题）、关闭irqbalance守护进程、禁用透明大页(THP)以避免延迟抖动；网卡驱动层需匹配硬件特性；上层应用层需适配底层优化。本章重点讲解OS层调优，通过NUMA感知的中断绑定脚本和THP禁用等手段，为RDMA创造低干扰、高性