清华大学等研究团队提出统一策略梯度估计器(UPGE)理论框架及混合后训练(HPT)算法,动态平衡SFT与RL方法,根据模型性能自动调整训练信号。实验证明HPT在多个数学推理基准上显著优于现有方法,有效平衡探索与利用能力,减少灾难性遗忘。


在人工智能领域,大语言模型(LLM)的后训练一直是提升模型性能的关键环节。近日,清华大学、上海人工智能实验室和微信AI的研究团队联合发表了一篇题为《Towards a Unified View of Large Language Model Post-Training》(迈向大语言模型后训练的统一视角)的论文,为这一领域带来了革命性的新视角。

该论文由Xingtai Lv、Yuxin Zuo、Youbang Sun等多位研究者共同完成,他们提出了一个统一的理论框架,将现有的各种后训练方法整合在一起,并在此基础上开发出了一种名为**混合后训练(Hybrid Post-Training,HPT)**的新算法。这项研究不仅在理论上统一了SFT(监督微调)和RL(强化学习)两种主要的后训练方法,还在实践中取得了显著的性能提升。

技术背景:大语言模型后训练的两条路径

要理解这项研究的重要性,首先需要了解大语言模型后训练的两种主要方法:监督微调(SFT)强化学习(RL)

SFT与RL的各自优势与局限

SFT是一种直接高效的方法,通过在高质量的人工标注数据上进行训练,使模型能够快速准确地拟合目标分布。这种方法能够有效地从演示数据中提取知识,但往往会限制模型的探索能力,可能导致在演示数据上过拟合,从而损害其在分布外输入上的泛化性能。

RL则允许模型在后训练过程中自由探索推理空间,并根据环境中提供的反馈来提高性能。然而,直接在基础模型上应用RL(即"Zero RL")需要模型具备一定的内在能力。当应用于较弱模型或高复杂度任务时,这种方法往往会失败,因为探索过程可能无法探索和发现有意义的奖励信号。

现有方法的局限性

目前,业界普遍采用的是**"SFT-then-RL"流水线**,即先通过SFT提升模型能力,然后用RL进行精细调整。虽然这种方法有效,但它的多阶段过程资源密集,通常需要仔细调整才能确保有效性。

为了规避这些挑战,最近的研究工作尝试将SFT或SFT风格的模仿学习损失直接与RL目标结合。这些方法使用复合损失函数来更新模型,通过固定系数、预定义计划、基于熵的动态调整或可学习参数等策略来平衡模仿和探索组件。然而,这些工作大多将SFT和RL损失视为两个不同的目标,对于为什么这两种学习信号可以在一个统一的优化过程中有效结合的详细分析仍然缺乏。

统一策略梯度估计器(UPGE):理论上的突破

论文的核心贡献之一是提出了统一策略梯度估计器(Unified Policy Gradient Estimator,UPGE),这一框架正式将各种后训练目标的梯度统一到一个通用表达式中。

UPGE的理论基础

研究者从一个简单且通用的目标开始:提高正轨迹的可能性,降低负轨迹的可能性,以最大化期望总奖励

在此目标基础上,他们推导出了统一策略梯度估计器。通过数学推导(详见论文附录B.1),他们证明了SFT和RL目标并不冲突,而是可以在一个单一损失中共同优化。

UPGE的四个组成部分

UPGE由四个可互换的部分组成,这些部分共同构成了一个统一的梯度估计框架:

  1. 稳定化掩码(Stabilization Mask):从PPO(Schulman et al., 2017)开始,稳定化掩码首次被推导为TRPO算法的近似。在实践中,PPO裁剪通过在当前迭代被认为不安全时关闭当前梯度来解决RL训练期间的不稳定性问题。
  2. 参考策略分母(Reference Policy Denominator):这是统一估计器中的第二项。参考策略与常用的rollout策略πθold不同,它表示一个令牌级别的重新加权系数,通常以逆概率的形式出现。对于SFT情况,策略分母使用当前策略πθ(τ)。对于PPO风格的在线RL算法,策略分母通常使用rollout策略πθold(τ)。由于在离线演示数据集中πre f (τ)不可用,大多数离线RL算法简单地假设πre f (τ) = 1作为分母。
  3. 优势估计(Advantage Estimate):在传统RL中,优势评估在给定当前状态下采取当前行动的额外收益。对于LLM的上下文,大多数优势估计是序列级别的而非令牌级别的,并衡量当前响应序列的质量。
  4. 似然梯度(Likelihood Gradient):策略梯度项是一个通用术语,将梯度信息从动作映射到模型参数θ。这对于将目标信号反向传播到网络权重至关重要,并且在所有梯度计算中保持相同。

图1:统一策略梯度估计器的示意图

图1展示了统一策略梯度估计器的结构,其中"∇"在似然梯度部分的背景中指的是相对于πθ的梯度计算。

UPGE的数学表达

统一策略梯度估计器的数学表达式为:

这个表达式表明,所有后训练方法的梯度计算都可以写成这种统一的形式。不同方法之间的差异可以分解为这四个不同组成部分的选择。

表1:各种后训练算法的理论统一视图

表1列出了各种后训练算法的参考策略、优势估计和统一策略梯度估计器,展示了SFT、PPO、GRPO等方法如何被统一到UPGE框架中。

混合后训练(HPT):实践中的创新

基于统一视角,研究者提出了**混合后训练(Hybrid Post-Training,HPT)**算法,这是一种混合算法,通过调整SFT和RL损失之间的混合比例,动态选择更理想的训练信号。

HPT的核心思想

HPT使用混合损失L = αLRL + βLSFT,其中包含加权的在线策略RL损失LRL和SFT损失LSFT,来优化目标LLM πθ。两种损失的权重(α和β)由模型的实时采样性能决定。

HPT的工作机制

对于提供给LLM的任何问题q,HPT首先获得一个监督轨迹τ⋆和模型在该问题上的性能P。具体来说,从πθ(·|q)中抽取n个在线策略轨迹{τi}n i=1,并使用验证器v:τi → {0, 1}进行评估。这个验证器与基于规则的奖励函数相同,模型的性能P定义为这些n个验证分数的平均值:

直观地说,P表示当前策略在多个轨迹上对q的表现如何。

然后,基于性能反馈获得在线策略RL损失α和SFT损失β的系数:

α = f(P), β = g(P)

其中f和g是特定的反馈函数。经验上,当模型表现出强大能力时,强调在线策略RL以促进探索是有利的;相反,当模型能力有限时,SFT应该优先以确保正确指导。因此,f应该与P正相关,而g应该表现出负相关。

在论文中,研究者使用了一对简单但经验上有效的开关函数f和g:

开关门γ使模型在性能低于预定阈值时执行SFT,否则执行RL。

HPT算法的完整流程

此处添加算法1:混合后训练(HPT)算法

算法1详细描述了HPT的完整流程,包括输入、输出和训练步骤。简而言之,HPT通过以下步骤工作:

  1. 对于每个问题q,从当前策略πθ中采样n个轨迹
  2. 使用验证器评估这些轨迹,计算模型性能P
  3. 根据性能P确定RL损失系数α和SFT损失系数β
  4. 计算RL损失LRL和SFT损失LSFT
  5. 使用混合损失L = αLRL + βLSFT更新模型参数

实验结果:HPT的卓越性能

研究者在六个数学推理基准和两个分布外测试集上进行了广泛的实验,以验证HPT的有效性。

实验设置

模型:为了评估HPT在不同骨干模型上的通用性,研究者使用了各种规模的Qwen和LLaMA模型进行实验,包括Qwen2.5-Math-1.5B、Qwen2.5-Math-7B和LLaMA-3.1-8B。

基准测试:研究者在六个数学推理基准上评估了HPT:AIME 2024、AIME 2025、AMC、MATH-500、Minerva和OlympiadBench。此外,当使用Qwen2.5-Math-7B作为骨干时,他们还在GPQA-Diamond和ARC-c上进行了评估。

基线方法:由于HPT动态集成了GRPO和SFT,最自然的基线是单独的SFT和GRPO。此外,研究者还将HPT与混合策略方法LUFFY进行了比较。对于使用Qwen2.5-Math-7B作为骨干的实验,他们还包括了SFT→GRPO和SRFT作为基线,以及在同一骨干上使用Zero-RL过程训练的模型。

主要实验结果

表2:HPT和基线在Qwen2.5-Math-7B上的分布内和分布外性能

表2显示,在Qwen2.5-Math-7B上,HPT不仅显著优于仅SFT和仅GRPO的基线,还超过了需要更高计算成本的SFT→GRPO。这表明简单地将两个训练阶段连接起来并不是最有效的策略。此外,HPT在现有的混合策略方法(如LUFFY和SRFT)上取得了显著改进,在AIME 2024上分别提高了6.9和14.6个百分点。

表3:HPT和基线在LLaMA3.1-8B和Qwen2.5-Math-1.5B上的性能

表3显示,与SFT、GRPO和LUFFY相比,HPT在LLaMA3.1-8B和Qwen2.5-Math-1.5B上都取得了显著的性能提升,证明了HPT在不同规模和系列的模型上的有效性。

探索与利用的平衡

HPT的一个关键优势是它能够在探索和利用之间实现自适应切换。这两种范式自然对应于学习模式的探索和利用。

探索能力:从探索的角度来看,研究者分析了HPT训练后模型的Pass@k性能。图2显示了HPT与基线在三个基准上的Pass@k性能比较。

图2:HPT与基线在Qwen2.5-Math-7B上的Pass@k性能

图2显示,包含SFT的方法相比纯RL(GRPO)实现了更高的高k Pass@k性能。这可能归因于SFT期间引入了模型自身分布之外的数据,这增加了输出不确定性,同时从离线数据中提供了新知识,从而增强了模型的探索能力。有趣的是,HPT实现了最高的高k Pass@k性能,表明混合后训练不仅在Pass@1方面带来了显著改进,而且最大限度地保留和增强了模型的探索能力。

利用能力:从利用的角度来看,关键问题是HPT是否通过利用SFT增强了模型的初始能力,并促进了随后的RL训练。表4显示了HPT与基线方法(GRPO和LUFFY)在MATH-500上的独占解决方案的双向分析。

表4:HPT与基线方法在MATH-500上的独占解决方案的双向分析

表4中的红色数字表示HPT解决但基线未解决的问题,即通过训练过程新获得的问题。分析表明,HPT提高了模型解决更具挑战性问题的能力,同时保留了模型已经解决的问题的性能,从而减轻了灾难性遗忘的风险。


训练可视化

为了更细致地检查训练过程并获得对HPT工作原理的更深入理解,研究者进行了可视化分析,比较了SFT→GRPO方法与HPT。

图3:SFT→GRPO在Qwen2.5-Math-1.5B上的训练动态

图3显示了SFT→GRPO在Qwen2.5-Math-1.5B上的训练动态,特别是在Level 3(较简单)和Level 5(最难)问题上的rollout准确性。值得注意的是,GRPO经常产生密集的白色区域,有时甚至是连续的白线,反映了输出中广泛的rollout错误。这说明了RL方法的一个核心局限性:当所有输出中频繁出现rollout错误时,它们难以有效学习。

图4:HPT与SFT→GRPO在Qwen2.5-Math-1.5B上的性能差异

图4显示了HPT与SFT→GRPO在Qwen2.5-Math-1.5B上的性能差异。虽然SFT→GRPO实际上需要比HPT更多的计算资源,但在训练的后期阶段,HPT仍然超越并最终显示出红色区域的主导地位,表明HPT通过显著增强训练集上的学习性能,始终优于SFT→GRPO。这种优势在Level 5子图中更加明显,表明HPT在学习更具挑战性的问题时提供了特别的益处。


这篇论文通过提出统一策略梯度估计器(UPGE)和混合后训练(HPT)算法,为大语言模型的后训练提供了一个统一的理论框架和一种高效的实践方法。

主要贡献

  1. 理论上的统一:UPGE提供了一个广泛的后训练算法理论统一,涵盖了SFT和RL损失,将它们纳入一个单一公式中。
  2. 实践上的创新:HPT能够在各种模型上超越以前的后训练和混合策略算法。
  3. 探索与利用的平衡:HPT中SFT和RL的动态集成实现了最高的Pass@1024,促进了模型的增强探索和泛化。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐