大模型对齐技术演进——从DPO到GRPO的深度解析!
本文分析了大模型对齐技术中DPO和GRPO的演进与对比。DPO虽简化RLHF流程,但存在奖励信号利用不充分、依赖初始模型质量等局限,性能逐渐被PPO超越。GRPO通过群体相对优势估计省去价值网络,大幅降低计算开销,在复杂推理任务上表现优异。当前趋势是从DPO转向GRPO,未来可能融合两者优势,实现更高效的大模型对齐。

❝
一句话概括:高质量数据为王。 DPO并没有解决数据问题,反而把偏好表示空间压缩了,实际应用上发现难以训练。没有看起来那么美好。主流还是PPO。
背景与近期研究概况
直接偏好优化(DPO)是一种将人类偏好融入大型语言模型的简化方法。传统RLHF需要先训练奖励模型再用强化学习微调,而DPO则绕过显式奖励模型,通过对成对偏好数据直接优化模型,使模型更偏向人类偏好的回答[1]。2023年提出的DPO算法显示出与PPO等RL方法相当的效果,同时训练更稳定、实现更简单[1]。由于无需在微调时从模型采样生成数据,DPO极大简化了RLHF流程,被视为**"免强化学习"的RLHF替代方案**[2]。学界一度在多个任务上广泛尝试DPO来对齐LLM与人类偏好[3]。
群体相对策略优化(GRPO)是2024年由 DeepSeek 团队引入的新型强化学习算法,旨在提升模型的推理能力[4]。GRPO最早在 DeepSeekMath 模型中提出,并应用于 DeepSeek-R1 大模型的训练[5]。作为PPO的变体,GRPO通过群体比较的方式计算优势,省去了价值网络(评估器)的训练,明显降低了强化学习的内存和计算开销[6]。DeepSeek团队利用GRPO成功训练了无需监督预热的纯RL推理模型(DeepSeek-R1-Zero),以及结合多阶段训练的DeepSeek-R1模型[7]。这些模型在数学推理、代码等复杂任务上取得了媲美OpenAI封闭模型的成绩[7]。GRPO的引入为大模型的强化学习微调带来了新的思路,也对学界原本对DPO的关注产生了影响。
DPO 关注度下降的主要原因
尽管DPO曾被寄予厚望,但随着研究深入,学者逐渐发现其局限,兴趣有所降温。主要原因包括:
- 奖励信号利用不充分:理论和实验表明,DPO在优化过程中对降低不受偏好响应的概率更有效,却不足以提高偏好响应的生成概率[3]。换言之,DPO更倾向于让模型避免"坏回答",而不能显著鼓励产生"好回答"[3]。当训练中"人类偏好"的回答与"不偏好"回答差异细微时,这种倾向会阻碍模型学习偏好响应的能力,导致性能提升有限[3]。这一内在缺陷使DPO生成的模型往往表现保守,未能最大化偏好奖励。
- 依赖初始监督微调效果:研究发现DPO对初始SFT模型质量非常敏感。如果在监督微调阶段模型对指令和人类偏好尚未理解透彻,直接进行DPO优化往往效果不佳[3]。DPO需要一个"足够对齐"的起点,否则由于其偏好信号利用不充分,会导致模型难以学习偏好响应[3]。这一点在实践中得到验证:某开源模型在已经用类似偏好信息微调过后,再用DPO微调几乎没有提升[8]。因此,DPO并非总能"点石成金",它依赖于已有模型对人类指令的理解能力。
- 特殊的训练技巧和超参数需求:DPO虽然实现简单,但要取得理想效果需要仔细的超参数调节。有报告指出,为防止过度惩罚和收敛困难,DPO训练往往需要异常低的学习率(如5e-7)等设置[8]。缺乏经验的调整可能导致DPO收益甚微,甚至出现过拟合偏好数据的问题(例如模型迎合偏好评分但实际质量下降[8])。相比之下,尽管PPO等RL方法实现复杂,但若超参数优化得当,其性能并不逊于DPO[8]。随着社区对这些细节的认识加深,DPO最初"开箱即用、无需调参即可达标"的印象被削弱。
- 相对性能优势减弱:更为关键的是,最新对比研究显示DPO并不总是最佳策略。在严格对照实验中,同样的偏好数据和初始模型情况下,PPO在数学和通用任务上略微 outperform DPO(数学领域高出约2.5%,综合指标高出约1.2%)[9]。另一项开创性实验(SteerLM)也观察到采用PPO的RLHF微调在基准测试上比DPO微调略有优势[8]。虽然这些差距不算巨大,但对于追求极致性能的研究而言,PPO等RL方法仍显现出更高上限。随着这些数据点出现,学界对"DPO能完全取代RLHF"的预期趋于冷静,更倾向于将DPO视为一种折中方案而非终极方案[9]。
综上,DPO在稳定性和实现简易方面的优点依然显著,但其局限性(对信号利用不充分、依赖SFT、需要特殊调参)和性能瓶颈使研究者开始转向探索改进方案或替代策略。这为GRPO等新方法的出现铺平了道路。
GRPO 的出现及 DeepSeek R1 的贡献
GRPO由DeepSeek团队在提升模型推理能力的实践中提出,是对现有RL算法的重要改进[4]。与PPO需要一个"价值网络"来评估状态价值不同,GRPO采用群体相对优势估计,通过一次生成多个回答并以群体平均奖励作为基线,直接计算每个回答相对于平均水平的优势[6]。这种做法等效于将PPO中的价值函数Baseline替换为群体平均得分,无需训练额外的价值模型,从而节省近一半的内存和计算[5, 6]。DeepSeek R1论文的主要贡献之一,就是发明并验证了GRPO算法的有效性:
- DeepSeekMath 7B 模型率先应用GRPO微调,在无需外部工具的情况下,在数学竞赛难度的MATH基准上取得了51.7%的高分,接近Gemini-Ultra和GPT-4的水平[4]。作者将该模型卓越的数学推理能力归因于两个关键因素:其一是精心的数学数据筛选管线,其二就是引入了GRPO强化学习微调以优化推理能力[4]。这证明了GRPO可以显著增强LLM的复杂推理能力。
- DeepSeek-R1 是该团队推出的首代通用推理大模型。DeepSeek-R1-Zero通过纯强化学习(无监督微调)训练,展现出强大的涌现推理行为[7];然后通过引入少量冷启动数据和多阶段训练得到DeepSeek-R1,在多个推理任务上达到与OpenAI的封闭模型(OpenAI-o1-1217)相当的水平[7]。值得注意的是,这一系列训练均采用GRPO算法而非传统PPO[10]。DeepSeek团队在没有额外奖励模型网络的情况下,仅凭规则评估的奖励函数和GRPO更新,就成功完成了70B规模模型的大规模RL微调[11, 12]。DeepSeek-R1论文通过开源模型和详细方法,贡献了首个证明GRPO在大模型上可行且高效的实例,为业界提供了宝贵经验。
GRPO的优势在DeepSeek的工作中得到了充分体现: (1) 效率提升 – 由于无需训练价值网络,单次迭代计算开销大幅降低,官方描述GRPO将RLHF所需算力"几乎减半"[5]。对于数十亿参数的模型,这意味着更快的收敛和更少的硬件需求,使得资源有限的研究者也能尝试RL微调。 (2) 稳定性增强 – GRPO在目标函数中直接融入了策略与参考模型之间的KL散度惩罚,配合群体平均作为基线,使训练更新更加平稳[6, 8]。这有助于避免策略崩溃和奖励偏差,提升大模型RL训练的鲁棒性。 (3) 规模与推理性能 – 实践证明GRPO尤其适合大模型的复杂推理任务。通过群体采样获得更准确的优势估计,模型得以在推理步骤上优化自我一致性和准确率。例如,DeepSeek-R1在数学和代码推理上远超其他同规模模型,几乎追平OpenAI同类模型[7, 13]。这些改进使GRPO被视为PPO的强力升级版本[14]。研究者指出,GRPO的"群体采样、相对优势估计、无价值网络"三大创新为未来的大模型强化学习提供了新蓝本[14]。
由于GRPO显著缓解了PPO的内存开销和不稳定性问题,它重新激发了学界对RL方法的兴趣。一些原本因为RLHF复杂性而转向DPO的团队,如今开始尝试将GRPO用于模型对齐,因为它在保持高性能的同时简化了训练管线。可以说,GRPO的出现一定程度上削弱了DPO在实用性上的优势,从而影响了研究者对DPO的关注度。正如一篇讨论所言,GRPO让RLHF的计算成本门槛降低,对于偏好对齐任务成为"下一步的发展方向"[8]。
社区讨论与关注趋势分析
在社交媒体和研究者社区中,对DPO和GRPO的讨论也反映了上述趋势。2023年中期,DPO论文问世时引发热议。不少开发者视其为绕开复杂RL的捷径,认为"通过偏好学习直接微调就能得到类ChatGPT模型"[15]。Hacker News上有人提问为何还需要RLHF,有没有"DPO之外RL能带来的额外魔力"[16]。社区回复指出,RL虽然复杂但有探索未知空间、主动寻优的优势,而DPO更像是偏好分类的极大似然训练,可能缺乏RL"寻找最优解"的能力[16, 17]。这种直观认识后来在实验中得到验证:RL可以鼓励模型主动生成更优答案,而DPO主要让模型模仿人类偏好数据。
2023年底至2024年初,随着更多开源实验发布,社区对DPO的态度变得理性。一些博文总结了公开RLHF项目的教训,如在OpenChat模型上应用DPO未显著改进,推测是因初始模型已用类似偏好信号训练过[8]。开放研究者Nathan Lambert撰文指出,DPO虽然实现方便,但要充分发挥作用往往需要非常低的学习率和高质量数据等苛刻条件[8]。他提到70B的Tulu模型通过DPO微调已达到ChatGPT水平,这是开源界的里程碑,但同时强调社区还需要更多对比实验来真正了解DPO与RL方法的差异[8, 18]。总的来看,这一时期的讨论呈现出"DPO效果不错但仍有问号"的基调。研究者意识到DPO不是万能钥匙,数据和调参仍决定成败[8]。对于更高难度的能力(如代码、数学),大家开始怀疑可能还是需要真正的RL阶段来深挖模型潜力[8]。这一转变为后来接受GRPO等方法埋下伏笔。
2024年中,Allen Institute等发布了系统性的对比研究,明确报告"在相同条件下PPO全面优于DPO"[9]。这一结果在学术圈和论坛上传开后,许多人认同了一个观点:优质偏好数据最重要,其次算法上PPO略胜一筹"[9]。因此,如果资源允许,纯RL方法仍是提升模型表现的利器;DPO更适合作为资源受限或简化实现时的折中[9]。与此同时,GRPO的出现为RL阵营注入了新的活力。DeepSeek发布开源模型和详尽报告,引发社区对GRPO的极大兴趣。Reddit上有讨论详细对比GRPO与PPO,提及DeepSeek R1首次用GRPO取代PPO,并省去了价值网络,节省大量训练开销[10]。有资深网友解读了GRPO如何通过一系列规则奖励函数实现了对模型行为的评估与优化,感叹"纯靠奖励函数训练出如此多才多艺的模型令人难以置信"[10, 11, 19]。Hugging Face社区也快速跟进,在其TRL库中加入了对GRPO Trainer的支持,提供范例代码鼓励大众尝试这种新方法[12, 20]。各类技术博客(如AWS社区、Medium等)纷纷撰文解析GRPO原理和实现细节,将其宣传为下一代高效RL算法"[8, 14]。相比之下,DPO在社交平台的讨论度明显降低——它已从"热点新秀"变成了对比基线或背景知识。很多帖子谈及DPO时,往往是在更广泛的偏好学习框架下,与RL方法一同讨论,而不再单独聚焦于DPO本身。这表明研究者的关注点逐渐转移:从最初如何规避RL(DPO),到后来如何改进RL本身(GRPO等)。
总的来说,社区观点认为DPO作为一种有用工具仍有价值,但并非银弹;而GRPO等新方法展现出更大的前景,值得投入更多注意力和研究精力。
学术界对DPO与GRPO未来发展的看法
展望未来,学术界对于DPO和GRPO均有深入思考:
对于DPO,研究者并未完全放弃,反而在积极寻求改良和理论突破。2024年已有工作从理论上分析了DPO的梯度场,解释了其为何抑制偏好响应学习等缺陷[3, 21]。这些分析为改进DPO指明了方向。例如,有学者提出结合动量的方法(Accelerated PO, APO),通过将偏好优化视为近端点方法并应用Nesterov加速,从理论上证明了更快的收敛速度,实验证明APO优于DPO[22]。这提示DPO并非不可提升:未来可能出现新的偏好优化算法,在保持DPO稳定简单的同时,缓解其学习偏弱的问题。此外,一些观点认为DPO可与RL策略结合使用。例如先用DPO等离线偏好方法进行初步对齐,得到一个强初始模型,然后再施加在线RL微调,以获得更优性能[8]。这种"两阶段"流程或许能兼顾效率和效果,被视为未来模型微调的理想方案之一[8]。综上,DPO未来的发展可能朝两个方向推进:一是改进算法本身(通过理论指导克服其优化偏差),二是与RL方法融合(在微调pipeline中扮演特定角色,如预训练对齐)。DPO作为RLHF的重要分支,其简单高效的特性依然有吸引力,尤其对于资源受限的开源社区和需要快速迭代的应用场景,预计仍将被采用并演化。
对于GRPO,学界普遍看好其作为下一代RLHF算法的潜力。DeepSeek的成功证明了GRPO在大模型上的可扩展性,这为今后在更多领域应用GRPO奠定基础。一个可能的趋势是:GRPO不仅用于数学推理,还可以推广到对话问答、代码生成、知识对齐等通用偏好微调任务。如果将GRPO中的规则奖励替换为高质量的神经网络奖励模型,理论上即可用于典型的RLHF流程(DeepSeek-R1-Zero选择不用神经奖励主要是为避免奖励模型偏差和"reward hacking"[19];但在一般场景下,一个稳健的奖励模型配合GRPO仍然是可行的)。不少工程实践者已经开始尝试用GRPO替代传统PPO来微调对话模型,期望获得更低的成本和更稳定的训练[5]。随着工具链的完善(如开源实现、库支持),GRPO有望成为RLHF的新标配。学者还提出,GRPO的群体对比思想契合偏好数据的比较性质,可以和人类反馈数据更好结合[6]。未来或许会出现GRPO的变种,专门针对多样化的人类反馈(比如多标注者、多维度偏好)进行优化,提高模型对复杂偏好的对齐程度。此外,GRPO的思路也启发了更多简化RL的研究方向——如果价值网络都可以省去,是否还能进一步简化其他环节?这一问题可能催生出更多创新RL算法,进一步缩小RLHF与直接优化法之间的实现差距。
总而言之,学术界对DPO和GRPO的未来均持积极态度:DPO方面,深入剖析其弱点并提出改进方案,被视为提升"免RL"偏好学习性能的关键;GRPO方面,在更广泛任务上验证其优势、以及与偏好数据/奖励模型的结合,是值得关注的研究方向。正如一篇综述所指出的:"偏好反馈学习"仍有许多开放挑战,需要包括DPO、GRPO在内的多种思路共同推进[23]。也许未来的最佳方案不是非此即彼,而是融合了DPO稳定性和GRPO高效率的混合策略,让大模型训练既高效对齐人类偏好又充分发挥探索优化能力。学界将在持续的实证和理论研究中寻求这样的平衡,为LLM对齐带来新突破。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
如果你也想通过学大模型技术去帮助自己升职和加薪,可以扫描下方链接👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。


资料包有什么?
①从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

更多推荐

所有评论(0)