震惊!只需YAML配置,RLinf v0.2让AI机器人训练效率飙升,小白也能快速上手!
RLinf v0.2是一款面向真机路线的强化学习框架,支持大规模分布式真机强化学习。其特色包括将机器人视为与GPU同级的资源、支持全异构软硬件集群配置、支持全异步off-policy算法等。用户只需编写YAML文件即可完成系统配置,实验显示该框架可在1.5小时内实现任务收敛,大幅降低AI机器人训练门槛。
在具身智能领域,特别是如何构造一个高泛化性的 VLA,数据之争一直存在:仿真数据 vs 真机数据。数据来源不同,导致算法设计迥然不同,进一步对系统设计提出了更多的要求。做 infra 的目标是做好服务,支持不同技术路线的探索。
「仿训推一体化」RLinf v0.1 面向的是采用仿真路线的用户,那么今天要给大家介绍的是 RLinf v0.2,面向采用真机路线的用户,也就是支持了真机强化学习。

- 论文标题:RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation
- 论文地址:https://arxiv.org/abs/2509.15965
- 开源地址:https://github.com/RLinf/RLinf
下面针对 RLinf v0.2 的特色展开介绍。
特色 1:RLinf 允许用户
像使用 GPU 一样使用机器人
在 RLinf 中,我们将机器人看作与 GPU 相同层级的、可灵活配置的资源,如图 1 所示,GPU Node 和 Robot Node 处于同一层级。过去我们通常把 Worker(训练、推理等工作组件)加载在 GPU 上,现在我们可以把 Worker 加载在机器人上。只要能够 access 到机器人的 IP 和端口,无论它们身在何处,都可以接入 RLinf 系统。
RLinf 会按照用户配置进一步完成模型与机器人的对应映射,之后 RLinf 会通过 Data Channel(RLinf 的通信原语)完成数据收集和模型参数更新。而实现这一切,用户只需要编写 YAML 文件即可完成,极大地降低了使用成本。例如,下图 2 展示了以 Franka 为例的 2 台机器人配置方法。

图 1 将机器人看作与 GPU 相同层级的、可灵活配置的资源 图 2 用户只需要编写 YAML 文件即可完成真机对接

图2 用户只需要编写YAML文件即可完成真机对接
RLinf 这一独特设计是为了解锁更宏大的目标,即大规模分布式真机强化学习训练范式,如图 3 所示。
这一范式将有望成为具身智能在除了 Scaling 数据、模型之外的第三条路径:Scaling 真机。大规模真机强化学习能够解决当下真机强化学习面临的诸多问题,当然,天下没有免费的午餐,放松了对算法的要求,对应地增加了对 infra 的要求,如何做到稳定、易用、灵活是 infra 要解决的主要挑战。
RLinf 针对这一问题给出了自己的答案:极度灵活的系统设计思想支持多样需求。特别地,RLinf 提出适配强化学习的新一代编程范式 Macro-to-Micro Flow (M2Flow),将上层工作流与底层计算优化解耦,兼顾了灵活性与高效性。

图 3 大规模分布式真机强化学习系统
特色 2:RLinf 支持
全异构软硬件集群配置
由于与物理世界高度耦合,真机强化学习面临的集群配置通常是异构的、端云协同的。例如,机器人的控制端需要实时操作系统且不需要运行神经网络模型,通常会运行在单独的 CPU 机器,如 NUC;VLA 模型推理端需要与机器人的控制端足够近,使得通信代价最小,且推理需要显存较小,因此 VLA 模型推理通常直接运行在端侧小显存机器,如 24GB 的 4090;VLA 模型训练为了加快训练速度,通常需要云端大显存机器集群,如 80GB 的 A100/800 等。
在端云协同的背景下,RLinf 支持灵活的全异构的软硬件集群配置,提升系统吞吐和训练效率。例如,你可以:
- 在支持光线追踪的 GPU(如 RTX 4090)上运行高保真模拟器;
- 在大显存计算 GPU(如 A800)上进行训练;
- 在小显存计算 GPU(如 RTX 4090)进行推理;
- 在无显存的 CPU 机器(如 NUC)运行机器人控制器。
在 RLinf 中接入这样的异构环境,只需要在 YAML 配置文件中正确配置 cluster 段落即可,如下图 4 所示。

图 4 RLinf 支持全异构软硬件集群配置
特色 3:RLinf 支持
全异步 off-policy 算法
真机强化学习的一个典型局限就是物理世界无法被加速,数据效率成为显著瓶颈,所以如何提高数据利用率成为关键一环。除此之外,当下真机强化学习的一种行之有效的方法是人在环介入,例如在执行过程中提供专家示教数据,或者实时标注数据等,传统同步训推框架将会极大限制这一类方法的训练效率。
因此,RLinf v0.2 新增全异步设计,端侧推理节点与云侧训练节点解耦,通过 Data Channel 进行数据周期性同步,进而实现训推并行,极大提高训练效率。同时,RLinf v0.2 上线典型 off-policy RL 算法,包括仅利用在线数据的 SAC [1]、CrossQ [2] 和同时利用离线数据集和在线数据的 RLPD [3] 等,进一步提升数据利用率。RLinf 中异步工作流示意图如图 5 所示。

图 5 全异步算法流图
实验结果
本次发布的尝鲜版是基于小模型的真机强化学习。为了方便大家快速、低成本复现实验,我们采用常见的 Franka 机械臂,基于常见物品或者易获取标准件设计了两个快速验证任务:Charger 和 Peg Insertion。其中,Charger 任务为稠密奖励,使用异步 SAC [1] 算法训练,训练过程中有 20 次左右的人在环空间鼠标接管,以提高训练效率。Peg Insertion 任务为稀疏奖励,使用异步 RLPD 算法 [3] 训练。在开始训练前,采集了 20 条人类操作数据存储在 Demo Buffer 中。
两个任务的成功率曲线如图 6 所示。可以发现,两个任务均可以在 1.5h 以内收敛。收敛后,Peg Insertion 任务可以连续 100+ 次成功,Charger 任务可以连续 50+ 次成功。

图 6 Peg Insertion & Charger 成功率曲线
训练过程的视频记录如视频 1 所示,完整记录了两个任务的训练过程。同时我们也验证了位于不同空间的两台 Franka 机械臂同时进行真机强化学习,见视频 2。
视频 1:训练过程。上:Peg Insertion;下:Charger
视频 2:位于不同房间的两台 Franka 机械臂同时进行真机强化学习
写在最后
RLinf 全体成员向支持 RLinf 的 2k 位社区用户表达感谢。用户的使用和反馈促使团队不断完善代码,也不断增加了团队坚定走下去的信心。自 2025.9.1 发布以来,RLinf 几乎保持着每 2 周更新一次新 feature 的开发速度,在经过几轮重构后,面向具身仿真路线需求的「仿训推一体化」强化学习框架 RLinf v0.1 版本于 2025.12.17 正式 release,欢迎大家查看中英双语文档(对!除了代码没有中文版,其他材料都有中文版!不要错过!)。目前 RLinf 支持矩阵可以总结如下:
- Simulator: Maniskill、IsaacLab、LIBERO、CALVIN、MetaWorld、Behavior、RoboCasa
- VLA: Pi0,Pi05,GR00T,OpenVLA,OpenVLA-OFT
- Custom policy: MLP、CNN
- RL Algos: GRPO、PPO、DAPO、Reinforce++
- SFT: Full-para SFT、LoRA
仿真路线还在持续开发,更多的 feature,如仿真器、模型也会尽快跟大家见面!
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

更多推荐



所有评论(0)