本文系统介绍了强化学习在大模型中的应用,从核心算法(PG、PPO)到语言模型和推荐系统中的具体应用方法,包括奖励模型设计和算法优化,展示了强化学习如何通过偏好对齐提升大模型性能。

1、强化学习核心思路

强化学习核心要解决的问题为:给一个智能体训练一个神经网络,它以当前状态作为输入,预测下一步的动作,使得整体的期望reward最大。例如智能体是alphago,将当前棋牌状态以图像或网格数据等形式输入到神经网络,预测结果为下一步下在哪个位置,能赢得棋局。智能体为语言模型,则是将当前的问题或上下文作为输入,预测大模型应该给出什么样的答案,能够符合人类偏好。

为什么上述优化问题无法用普通的有监督学习进行优化?主要是2方面原因。其一是样本收集问题,在游戏等序列决策问题中,智能体的每次行为会影响后续状态进而影响后续行为和reward,生成样本本身就需要有一个初始智能体和环境互动,智能体也依赖这些样本更新,样本的收集和模型的更新是同步进行的,不像有件监督学习中数据集不会受到模型的影响。其他是reward优化问题,reward的设计一般比较复杂,例如每次行为有reward、整体有reward,这些reward可能是基于规则、模型计算得出的,本身不可导,因此不能像有监督学习那样直接简单引入模型中。

2、强化学习基础算法

下面简单介绍强化学习最基础的算法Policy Gradient(PG)和Proximal Policy Optimization (PPO)。它们其实就是损失函数如何设计,能让神经网络更新产出能让reward最大化的智能体。模型的输入为当前状态,输出为当前状态下应该采用什么action(如一个简单的分类)。

PG算法的核心逻辑为:模型能够生成当前环境s下进行动作a的条件概率,如果这个动作的reward比较大,就提升它的概率,否则就降低它的概率。这和普通的有监督学习类似,主要差异是使用reward进行样本加权。

Reward的设计是核心,包括一些细节。比如当前动作对后续的影响是随时间降低的,因此对于当次行为后续带来的reward使用衰减系数进行降权;使用一个value function来拟合当前状态下未来最终得到的价值期望作为reward权重的baseline,如果当前action的reward比这个baseline高,才能证明是有收益的。

PG的训练过程很慢,需要先初始化一个智能体参数,进行多次序列行动收集样本,对参数进行一轮训练,然后再用新的参数进行样本收集,再进行训练,以此类推,效率很低。PPO主要为了解决该问题,引入重要性采样的方法,让模型能够使用新智能体参数去学老智能体收集到的样本,大幅提升训练效率。

其核心思路是利用重要性采样,根据新老参数的分布差异对老参数智能体收集的样本进行加权使得该样本在新参数上也能训练。同时考虑到两个分布差异太大会导致重要性采样误差较大,使用KL散度约束新老参数产出的行为分布不能相差太多,也可以使用clip的方法对两个分布的差异进行clip。

3、大模型中的强化学习应用

在介绍了强化学习最基础的算法逻辑后,下面我们对大模型中强化学习的应用进行梳理。首先在大模型中应用强化学习的工作是Training language models to follow instructions with human feedback(2022),文中利用强化学习的PPO算法进行大模型的偏好对齐,构建了InstructGPT。在InstrucGPT中,智能体就是大模型本身,环境就是给大模型输入的prompt(如问题等,需要大模型给出回答),动作就是大模型每个时间步产出的文本,每个时间步产出的文本对应序列决策中每一步的action。

Reward文中使用了一个单独的模型产出,对于一个prompt让多个模型产出多种结果,让标注员评判这些结果的好坏,用这种带排序的标注结果训练一个奖励模型。对于一个prompt+回答,奖励模型能给出它的好坏程度,作为后续强化学习中的reward。通过这种方式,直接将人工评判的风格偏好引入到大模型中,这种不可导的奖励信号不借助强化学习是无法引入模型的。Value function使用了一个和大模型相同的结构,用来产出每个token生成预期的最终reward。

整体的损失函数表示如下,其中第一项是PPO损失,文中将PPO的KL散度约束改成了per-token的,即预训练模型和偏好对齐后的模型每个token的分布不能差异太大。同时也引入了前序非强化学习的预训练loss进行混合训练。

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(2024) 提出了一种更高效的GRPO算法代替PPO。在PPO中,需要一个value function评估当前生成这个token未来的期望价值作为baseline,value function一般来说和policy(也就是大模型本身)是同相同的网络,参数量也很大,导致计算复杂度很高。为了解决这个问题,GRPO的核心优化是去掉了value function,改成使用对于同一个问题的多条采样输出结果的reward对当前reward进行归一化(计算采样均值、方差等),替代value function的baseline作用。和PPO的本质区别在于后者用模型预测reward期望作为baselin,前者用采样结果+reward模型打分统计平均reward作为baseline。

DAPO: An Open-Source LLM Reinforcement Learning System at Scale(2025) 针对PPO、GRPO在大模型上应用存在的问题进行了多个细节优化。首先是将PPO中重要性采样引入的约束项的clip上限放开,Clip的作用和KL相似,都是为了让新参数和老参数产出的行为分布差异不要太大。但这种方式限制了低预估概率探索token的生成,同时高预估概率的探索token很难被限制住。其次是在GRPO的采样上,随着训练的进行有很多采样结果可能reward都是准确的且相同的,这些采样结果让模型在后期训练变慢,因此文中将采样次数提升,同时去掉其中完全准确的采样结果。对于序列长度的差异,之前采用sample维度求token loss平均计算loss,对于长句子来说每个token生成的好与坏被平滑掉了,因此文中将sample级别的loss改成token级别的loss。对于过长句子被截断的影响,文中发现这部分样本会影响训练稳定性(也是由于改成了token维度loss带来的负面效果),因此针对这些句子根据其超出最大长度限制比例进行降权,超出长度越多loss权重越低。

除了上述标准强化学习方法外,有的模型也利用其他方法模拟强化学习的偏好对齐能力。例如Direct Preference Optimization: Your Language Model is Secretly a Reward Model(2024) 论文中提出的DPO方法,基于人工标注的最好的样本和最差的样本构建pair-wise样本,让模型预测好样本概率大于差样本,绕过了强化学习,Qwen模型中也使用该方法进行偏好对齐。

4、推荐大模型中的强化学习应用

在推荐大模型中,基本沿用了语言大模型常用的强化学习方法,核心差异在于在推荐大模型中如何定义reward,在推荐系统中,一般根据用户日志来判断用户对推荐结果是否感兴趣,如播放时长、点击率等。

在第一版Onerec中,reward model采用了类似精排模型的方式训练各个关注的目标(如有效播放、点击率等)作为reward。对于一个用户的一次session请求,通过beam search的方式生成多组session推荐结果,使用精排模型打分得到每个session的总reward值,选择reward最大和最小的构建pair样本,使用DPO损失函数进行优化。

在Onerec V2中,也开始采用强化学习进行推荐大模型的偏好对齐。在reward的设计上,Onerec V2的做法更为简单,直接人工定义reward值。将用户看过的视频根据市场分组,当对一个视频的观看时长属于该分组下这个用户历史观看时长前25%的,reward就为1;当对一个视频有显示负反馈行为,reward就为0。这个过程将PPO中的value function和baseline作对比的作用直接放在了人工reward构造的过程中。

在强化学习算法上,分别提出了ECPO和GBPO方法,两者都是在PPO中的clip上做优化。ECPO中,对负向value的梯度的最大值也进行了约束,防止出现梯度爆炸问题,提升训练稳定性。在GBPO中,对于负样本提出了动态clip的方法,其核心逻辑为,一个负样本如果预测概率比较低,其进一步优化的空间就很小了,因此梯度应该比较小才合理,但是GRPO中并没有这种根据预测概率动态调节梯度的方法。在基础的BCE中,梯度中的1-p可以起到这个平滑作用,因此GBPO引入类似的方式,直接用1-行为概率预测结果作为负样本的动态clip边界。

在RecGPTV2中,也采用了强化学习的方法对RecGPTV1进行偏好对齐。RecGPTV2采用GRPO进行优化,主要差异是在reward的设计上。在每个Expert的训练上,reward综合考虑了item tag预测的准确率、基于用户偏好对训练的奖励模型的打分、生成结果的多样性(每个tag映射成表征计算两两cosine距离的均值)等。可以看到在推荐大模型领域,reward的设计会更加复杂,需要综合考虑用户偏好、多样性、负反馈等各种信息。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

大模型入门到实战全套学习大礼包

1、大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

img


2、大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

在这里插入图片描述

3、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

img

4、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

img

5、大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

img

适用人群

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐