今天聊一聊Agentic RL。作为这个系列的首篇文章,本文将先从框架优化的角度,介绍一些提升Agentic RL效率的解决方案,当然也是受前段时间吴翼老师一次分享的启发,打算梳理下目前这方面的工作。

我们知道,RL的效率瓶颈主要集中在rollout阶段,而这一问题在agent任务上表现尤为明显,表现为少数耗时极长的trajectories会严重拉长整个rollout的耗时,而RL workflow一般又是generation和training交替进行的synchronous方式,进而拖慢整个训练流程。

针对这一问题,目前业内解决方案主要分为以下几类:

1. synchronous,但对long tail回复进行单独处理

这一方法以RollPacker提出的Tail Batching为代表。

Tail batching采用speculative execution(投机执行),每个step执行超过P0个prompt,但只保留最快完成的P0个;每个prompt生成超过R0个response,但只保留最先完成的R0个。

另一方面,未完成的长输出prompt被加入long prompt queue,一旦队列达到P0大小,这些prompts将被批量调度到一个专门的long rounds中,在这个轮次中,不使用投机执行。

通过short rounds和long rounds交替进行的方式,确保所有prompt都会被处理,同时大部分rollout步骤保持高效。

2. asynchronous,训推解耦,采用partial rollout

这一方法以AReal为代表。AReal提出全异步,即Streaming Rollout (no batch any more) + Eager Batched Training

怎么理解streaming rollout,就是说既然generation长度不一,直接丢掉batch的束缚,producer就依次采样即可,不需要停止,只要生产够一个batch的数据,就丢给consumer。

consumer一旦接收到数据,就开始训练并更新参数。

参数一旦更新好,打断正在rollout的producer,将参数通过NCLL或者共享存储更新上去,然后producer重新计算kv cache后接着工作。consumer继续拿下一批数据进行训练。

但这样一来,就会引入一个新的问题:如果一个traj非常长,它可能是使用多个version的policy生成的,off-policy程度过重显然是不可接受的。怎么解决?工程+算法协同改进:

工程方面,引入staleness(陈旧度)的概念,约束当前producer不能领先consumer太多版本数,如果大于这个阈值了,说明“供大于求”,producer就会停下来等一等consumer。

version = self.inference_engine.get_version()
ofp = self.config.max_head_offpolicyness
sample_cnt = self.rollout_stat.accepted + self.rollout_stat.running
consumer_bs = max(1, self.config.consumer_batch_size // world_size)
capacity = min(capacity, (ofp + version + 1) * consumer_bs - sample_cnt)

算法方面,则引入了一种解耦的PPO损失函数,重构多个旧策略生成时的置信区间,以提高cross-version rollout的训练稳定性。(具体推导可以看原论文)

采用全异步RL方式,与AReal思路基本一致的,还有slime:

图来自https://www.notion.so/Agent-Oriented-Design-An-Asynchronous-and-Decoupled-Framework-for-Agentic-RL-2278e692d081802cbdd5d37cef76a547

Kimi-Researcher也是采用的这个思路:

图来自https://moonshotai.github.io/Kimi-Researcher/

3. actor存在multi-version,但单步trajectory不会corss version,训推完全解耦

上面的方法其实还没做到完全解耦,因为consumer一旦完成,producer就得中止生成,更新最新的参数。带来的问题就是单步策略不一致,影响模型收敛;另一方面,生成一旦中止,就需要re-prefill,这个过程在某些长下文的情况下耗时也十分可观。

为此,美团在longcat-flash-thinking技术报告中提出了DORA:对RL流程进行规范化,划分为标准的三阶段,互不干扰(Streaming Generation、Experience-Maker Phase、Model Training Phase)。

同时架构层面分了独立生成器组和弹性角色组。独立生成器组,专职rollout采样,允许multi version存在,但在单步采样时,不需要停下来update policy,保证了单步策略一致性。而弹性角色组,则可以根据实际需要,动态切换角色,既可以是训练者,也可以是生成器。

第二篇工作是字节Seed的Laminar,主要包括:
  1. Hierarchical Relay Network:用一个充当分布式参数服务的中继工作节点层,取代了僵化的全局更新。这套机制实现了异步、细粒度的权重同步,允许rollout进程在任意时刻拉取最新模型权重,同时actor的训练循环也不会被阻塞。在这样的机制下,系统的运行表现为两条并行的、互不阻塞的生命周期流:数据流参数流

数据流:这是轨迹从诞生到被用于训练的全过程,体现了彻底的生产-消费解耦:任务拉取:Rollout Worker从Prompt Pool获取生成任务;**进度流式保存:在生成过程中,轨迹的中间状态被实时流式传输到Partial Response Pool,这一步是实现快速、无损故障恢复的基石;****成品入库:轨迹生成完毕后,被完整地移入Experience Buffer;**按需消费:Trainer根据自身的节奏,从Experience Buffer中采样批次数据进行模型训练。

参数流:这是模型权重从更新到分发至所有Rollout的过程,其设计核心是消除一切等待:即时发布:Trainer完成一次模型更新后,立即将新权重推送到唯一的Master Relay关键在于,推送完成后Trainer无需等待后续的分发过程,直接开始下一轮训练迭代。后台广播:Master Relay在后台通过RDMA网络,以高效的流水线方式将新权重广播给所有其他Slave Relay。此过程不占用任何GPU资源,对正在进行的生成任务完全透明。按需订阅:Rollout Worker在完成其当前批次的生成后,可以随时从其****同机器的Slave Relay通过高速PCIe链路拉取最新权重。这几乎是一个本地内存拷贝操作,延迟极低。

整体思路类似于,你训练不要打断我的生成,把权重放到Relay,我忙完手头工作会自己去取。同理,你训练也不需要等我的生成,做完的数据我会放到Experience Buffer,你需要的时候自己去取就行。

  1. Dynamic Repack Mechanism:主要为了解决单个rollout内部的long tail问题,监控并整合分散在不同节点的long tail traj到少数专用rollout上,最大化整体的生成吞吐量,从而释放出更多资源用于生成基于最新模型的轨迹。

最后唠两句

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

在这里插入图片描述

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

在这里插入图片描述

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤640套AI大模型报告合集

在这里插入图片描述

⑥大模型入门实战训练

在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐