以下是对机器人规划与控制(简称“规控”)技术近十年(2014–2024)演进历程的系统性总结。这十年,规控技术从以模型驱动、优化为主的经典方法,逐步迈向学习驱动、端到端、任务语义融合的智能范式,并在实时性、安全性、泛化性和人机协同方面取得突破性进展。


一、总体演进脉络

时期 核心范式 技术特征 代表性方法/系统
2014–2017 模型+优化主导 基于动力学模型、采样/梯度优化 RRT*, CHOMP, MPC, LQR
2018–2020 学习辅助规控 模仿学习、强化学习初步应用 DAgger, DDPG, PPO, GPS
2021–2023 端到端与语义规控 视觉输入直接输出动作,任务驱动 ViNG, RT-1, Language-conditioned Policies
2024–至今 具身基础模型与安全闭环 大模型+世界模型+形式化验证 VLA, OpenVLA, CBF-MPC, Safe-LLM Agents

二、分阶段关键技术演进

▶ 第一阶段:经典优化与采样时代(2014–2017)

核心思想:规控 = 在已知模型和环境中求解最优轨迹或反馈律。

✅ 关键技术:
  • 运动规划
    • RRT*(Karaman & Frazzoli, 2011 → 广泛应用至 2017):渐进最优的采样-based 规划器。
    • CHOMP / TrajOpt:基于梯度优化的平滑轨迹生成。
    • A/D Lite**:用于离散栅格地图的路径规划。
  • 控制理论成熟应用
    • LQR / LQG:线性系统最优控制。
    • MPC(模型预测控制):在无人机、自动驾驶中广泛应用,支持约束处理。
    • 阻抗/导纳控制:用于人机物理交互(如协作机械臂)。
  • 软件栈标准化
    • ROS 中集成 MoveIt!(操作规划)、navigation stack(移动机器人导航)。
⚠️ 局限:
  • 依赖精确动力学/环境模型
  • 难以处理高维非线性系统(如灵巧手)
  • 对感知噪声和动态障碍物鲁棒性差

📌 此阶段规控 = “在理想世界中求最优解”


▶ 第二阶段:学习驱动规控兴起(2018–2020)

核心思想:用数据替代部分建模;策略可从专家示范或试错中学习。

✅ 关键技术:
  • 模仿学习(Imitation Learning)
    • DAgger:解决行为克隆的分布偏移问题。
    • 应用于自动驾驶(如 NVIDIA PilotNet)、机械臂抓取。
  • 深度强化学习(DRL)爆发
    • DDPG / SAC / PPO:在仿真中训练复杂策略(如 Boston Dynamics 风格 locomotion)。
    • Sim2Real 迁移:通过域随机化(Domain Randomization)提升真实世界性能。
  • 学习+优化混合架构
    • GPS(Guided Policy Search):结合轨迹优化与策略学习。
    • Learning MPC:用神经网络学习代价函数或动力学模型。
⚠️ 挑战:
  • 样本效率低,依赖大量仿真
  • 安全性难保证(探索可能损坏硬件)
  • 策略泛化能力有限(换任务需重训)

📌 规控开始“智能化”,但仍难部署于安全关键场景


▶ 第三阶段:端到端与语义规控(2021–2023)

核心思想:规控应理解任务语义,并直接从原始感知输入生成动作。

✅ 关键技术:
  • 视觉端到端导航
    • ViNG(ICRA 2021):从单目图像直接输出导航动作,无需显式建图。
    • MTM (Masked Trajectory Modeling):自监督学习轨迹先验。
  • 语言条件策略(Language-Conditioned Policies)
    • SayCan(Google, 2022):LLM 选择技能,低层控制器执行。
    • LM-Nav(ICRA 2023):用大语言模型生成导航子目标。
  • 多任务通用策略
    • RT-1(Robotics Transformer, ICRA 2023):在 13 台机器人上训练,支持 700+ 任务。
    • 输入:图像 + 文本指令 → 输出:关节速度/末端位姿。
  • 安全增强学习
    • Control Barrier Functions (CBF) 与 RL 结合,保证安全约束。

📌 规控 = “理解任务并直接行动”,打破“感知-规划-控制”传统流水线。


▶ 第四阶段:具身基础模型与可信规控(2024–)

核心思想:规控是具身智能的核心体现,需融合世界模型、大模型与形式化安全。

✅ 关键技术:
  • 具身基础模型(Embodied Foundation Models)
    • OpenVLA(2024):开源视觉语言动作模型,支持跨机器人泛化。
    • RoboCat / GR00T(NVIDIA):在百万级真实+仿真数据上预训练。
  • 世界模型驱动规控
    • 内部模拟环境演化,用于想象规划(Imagined Planning)
    • PlaNet / DreamerV3 扩展至机器人领域。
  • 大模型作为规控调度器
    • LLM 分解复杂任务(“整理桌面” → “抓杯子→放托盘→擦桌子”)
    • 调用专用技能模块(skills library)
  • 形式化安全验证
    • CBF + MPC + Reachability Analysis 构建安全规控闭环
    • 满足 ISO 13482、SOTIF 等标准
  • 人机协同规控
    • 共享控制(Shared Autonomy):人类修正高层意图,机器人处理底层执行

📌 规控 = “安全、通用、可解释的具身决策引擎”


三、规控架构演进对比

维度 2015 年 2024 年
输入 位姿、地图、目标点 图像 + 语言 + 触觉 + 上下文
输出 轨迹 / 控制律 动作序列 + 不确定性 + 安全证书
模块化 感知 → 规划 → 控制(串行) 端到端 / 分层技能库(混合)
泛化性 单任务、固定环境 跨任务、跨平台、开放世界
安全性 事后避障 形式化保证 + 实时监控
开发方式 手工调参 + 仿真测试 数据驱动 + 基础模型微调

四、未来趋势展望(2025+)

  1. 自主技能发现(Autonomous Skill Discovery)
    机器人通过自我探索构建技能库,无需人工定义。
  2. 联邦规控学习
    多机器人协作学习策略,保护数据隐私。
  3. 绿色规控
    能效最优轨迹规划(如最小化电机能耗)。
  4. 神经符号规控
    结合神经网络的泛化能力与符号规划的可解释性。
  5. 监管级规控认证
    规控系统需通过功能安全认证(如 ISO 26262 ASIL-D)。

总结

机器人规控的十年,是从“按图索骥”到“理解任务、安全行动”的跃迁
它已从依赖精确模型的数学优化问题,进化为融合感知、语言、学习与安全的具身智能核心能力
未来,随着基础模型与可信 AI 的发展,规控将不仅是“如何动”,更是“为何动、能否动、是否该动”的综合决策体现。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐