强化学习十年演进(2015–2025)

一句话总论:
2015年强化学习还是“DQN+Atari游戏+离线小样本”的学术爆发初期,2025年已进化成“多模态VLA大模型+亿级并行仿真域随机化+量子级不确定性优化+具身自进化决策”的产业核心,中国从跟随DeepMind跃升全球领跑者(宇树、银河通用、小鹏、华为、智元等主导),RL渗透率从<1%飙升至>80%高性能机器人/智驾,训练效率提升百万倍+,推动从“游戏AI”到“物理世界通用智能决策大脑”的文明跃迁。

十年演进时间线总结
年份 核心范式跃迁 代表算法/模型 训练效率/泛化能力 应用场景扩展 中国贡献/里程碑
2015 DQN+价值函数爆发 DQN (Nature) 单机 / 游戏级 Atari游戏 DeepMind DQN,中国跟进DQN研究
2017 策略梯度+Actor-Critic A3C / TRPO / PPO 100–1000并行 / 初步连续控制 简单机器人行走 中国初代PPO,优必选/宇树行走初探
2019 多任务+元学习初探 MAML + SAC 1000–10000并行 / 多任务迁移 抓取/简单越野 宇树A1 + 小米CyberDog SAC控制
2021 万级并行+域随机化革命 Isaac Gym + DreamerV2 10万+并行 / Sim2Real>95% 复杂体操/奔跑 中国厂商3个月全切换Isaac Gym,宇树H1翻滚/奔跑
2023 VLA+多模态RL元年 RT-2/OpenVLA + PPO VLA 百万并行 / 零样本意图 自然语言→复杂动作 银河水母 + 宇树天工VLA RL首发
2025 VLA自进化+量子不确定性终极形态 Grok-4/DeepSeek VLA RL + Quantum RL 亿级并行 / 全域自进化 社交意图+永不翻车 银河2025 + 宇树G1 + 智元元系列量子级VLA RL
1. 2015–2018:价值函数到策略梯度基础时代
  • 核心特征:DQN价值函数+策略梯度(A3C/TRPO/PPO)初探,单机–千级并行,离散/简单连续动作,游戏级泛化。
  • 关键进展
    • 2015年:DeepMind DQN玩Atari超人类。
    • 2016–2017年:A3C异步并行+PPO稳定策略梯度。
    • 2018年:SAC软演员评论家连续控制。
  • 挑战与转折:样本效率低、连续控制弱;并行仿真+域随机化兴起。
  • 代表案例:OpenAI DQN/ PPO游戏AI,中国优必选行走初探。
2. 2019–2022:多任务+万级并行仿真时代
  • 核心特征:MAML元学习+SAC/PPO+Isaac Gym万级并行域随机化,Sim2Real>95%,支持复杂连续控制/多任务迁移。
  • 关键进展
    • 2019年:MAML元学习+MuJoCo仿真。
    • 2020–2021年:Isaac Gym革命,中国厂商3个月全切换。
    • 2022年:DreamerV2世界模型+RL,宇树H1复杂体操。
  • 挑战与转折:泛化仍有限;VLA大模型意图直出突破。
  • 代表案例:宇树H1奔跑/翻滚+小米CyberDog越野。
3. 2023–2025:VLA多模态自进化时代
  • 核心特征:端到端VLA大模型统一RL决策+多模态输入+量子级不确定性优化+亿级仿真自进化,零样本全域社交意图。
  • 关键进展
    • 2023年:RT-2/OpenVLA+银河水母/宇树天工VLA RL首发。
    • 2024年:DeepSeek/Grok-4专用VLA RL模型,量子辅助探索。
    • 2025年:银河2025 + 宇树G1 + 智元元系列,VLA RL自进化(越用越聪明),专业级体操/乒乓/社交驾驶。
  • 挑战与转折:黑箱/长尾;大模型+量子+亿级仿真闭环标配。
  • 代表案例:银河通用2025人形(VLA RL专业级街舞/家务),宇树G1(全地形社交意图RL控制)。
一句话总结

从2015年DQN游戏AI的“学术爆发”到2025年VLA量子自进化的“全域社交意图决策大脑”,十年间强化学习由离散游戏转向具身多模态闭环,中国主导万级→亿级并行仿真+VLA RL创新+普惠下沉,推动机器人/智驾从“简单重复动作”到“像人一样学习进化任意复杂任务”的文明跃迁,预计2030年VLA RL渗透率>95%+永不翻车全场景自进化。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐