强化学习十年演进（2015–2025）

摘要： 2015-2025年，强化学习（RL）从DQN游戏AI发展为多模态VLA大模型驱动的通用决策系统。早期（2015-2018）以DQN和策略梯度为主，应用于游戏和简单控制；中期（2019-2022）通过万级并行仿真和元学习实现复杂任务迁移；后期（2023-2025）融合VLA大模型、量子优化和亿级仿真，实现零样本意图和自进化决策。中国从跟随者跃升为全球领跑者，宇树、银河通用等企业推动RL在机

jzwspace

708人浏览 · 2026-01-02 10:02:29

jzwspace · 2026-01-02 10:02:29 发布

强化学习十年演进（2015–2025）

一句话总论：
2015年强化学习还是“DQN+Atari游戏+离线小样本”的学术爆发初期，2025年已进化成“多模态VLA大模型+亿级并行仿真域随机化+量子级不确定性优化+具身自进化决策”的产业核心，中国从跟随DeepMind跃升全球领跑者（宇树、银河通用、小鹏、华为、智元等主导），RL渗透率从<1%飙升至>80%高性能机器人/智驾，训练效率提升百万倍+，推动从“游戏AI”到“物理世界通用智能决策大脑”的文明跃迁。

十年演进时间线总结

年份	核心范式跃迁	代表算法/模型	训练效率/泛化能力	应用场景扩展	中国贡献/里程碑
2015	DQN+价值函数爆发	DQN (Nature)	单机 / 游戏级	Atari游戏	DeepMind DQN，中国跟进DQN研究
2017	策略梯度+Actor-Critic	A3C / TRPO / PPO	100–1000并行 / 初步连续控制	简单机器人行走	中国初代PPO，优必选/宇树行走初探
2019	多任务+元学习初探	MAML + SAC	1000–10000并行 / 多任务迁移	抓取/简单越野	宇树A1 + 小米CyberDog SAC控制
2021	万级并行+域随机化革命	Isaac Gym + DreamerV2	10万+并行 / Sim2Real>95%	复杂体操/奔跑	中国厂商3个月全切换Isaac Gym，宇树H1翻滚/奔跑
2023	VLA+多模态RL元年	RT-2/OpenVLA + PPO VLA	百万并行 / 零样本意图	自然语言→复杂动作	银河水母 + 宇树天工VLA RL首发
2025	VLA自进化+量子不确定性终极形态	Grok-4/DeepSeek VLA RL + Quantum RL	亿级并行 / 全域自进化	社交意图+永不翻车	银河2025 + 宇树G1 + 智元元系列量子级VLA RL

1. 2015–2018：价值函数到策略梯度基础时代

核心特征：DQN价值函数+策略梯度（A3C/TRPO/PPO）初探，单机–千级并行，离散/简单连续动作，游戏级泛化。
关键进展：
- 2015年：DeepMind DQN玩Atari超人类。
- 2016–2017年：A3C异步并行+PPO稳定策略梯度。
- 2018年：SAC软演员评论家连续控制。
挑战与转折：样本效率低、连续控制弱；并行仿真+域随机化兴起。
代表案例：OpenAI DQN/ PPO游戏AI，中国优必选行走初探。

2. 2019–2022：多任务+万级并行仿真时代

核心特征：MAML元学习+SAC/PPO+Isaac Gym万级并行域随机化，Sim2Real>95%，支持复杂连续控制/多任务迁移。
关键进展：
- 2019年：MAML元学习+MuJoCo仿真。
- 2020–2021年：Isaac Gym革命，中国厂商3个月全切换。
- 2022年：DreamerV2世界模型+RL，宇树H1复杂体操。
挑战与转折：泛化仍有限；VLA大模型意图直出突破。
代表案例：宇树H1奔跑/翻滚+小米CyberDog越野。

3. 2023–2025：VLA多模态自进化时代

核心特征：端到端VLA大模型统一RL决策+多模态输入+量子级不确定性优化+亿级仿真自进化，零样本全域社交意图。
关键进展：
- 2023年：RT-2/OpenVLA+银河水母/宇树天工VLA RL首发。
- 2024年：DeepSeek/Grok-4专用VLA RL模型，量子辅助探索。
- 2025年：银河2025 + 宇树G1 + 智元元系列，VLA RL自进化（越用越聪明），专业级体操/乒乓/社交驾驶。
挑战与转折：黑箱/长尾；大模型+量子+亿级仿真闭环标配。
代表案例：银河通用2025人形（VLA RL专业级街舞/家务），宇树G1（全地形社交意图RL控制）。

一句话总结

从2015年DQN游戏AI的“学术爆发”到2025年VLA量子自进化的“全域社交意图决策大脑”，十年间强化学习由离散游戏转向具身多模态闭环，中国主导万级→亿级并行仿真+VLA RL创新+普惠下沉，推动机器人/智驾从“简单重复动作”到“像人一样学习进化任意复杂任务”的文明跃迁，预计2030年VLA RL渗透率>95%+永不翻车全场景自进化。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。