机器人规控技术十年演进

机器人规控的十年，是从“按图索骥”到“理解任务、安全行动”的跃迁。它已从依赖精确模型的数学优化问题，进化为融合感知、语言、学习与安全的具身智能核心能力。未来，随着基础模型与可信 AI 的发展，规控将不仅是“如何动”，更是“为何动、能否动、是否该动”的综合决策体现。

jzwspace · 2025-11-15 23:01:04 发布

以下是对机器人规划与控制（简称“规控”）技术近十年（2014–2024）演进历程的系统性总结。这十年，规控技术从以模型驱动、优化为主的经典方法，逐步迈向学习驱动、端到端、任务语义融合的智能范式，并在实时性、安全性、泛化性和人机协同方面取得突破性进展。

时期	核心范式	技术特征	代表性方法/系统
2014–2017	模型+优化主导	基于动力学模型、采样/梯度优化	RRT*, CHOMP, MPC, LQR
2018–2020	学习辅助规控	模仿学习、强化学习初步应用	DAgger, DDPG, PPO, GPS
2021–2023	端到端与语义规控	视觉输入直接输出动作，任务驱动	ViNG, RT-1, Language-conditioned Policies
2024–至今	具身基础模型与安全闭环	大模型+世界模型+形式化验证	VLA, OpenVLA, CBF-MPC, Safe-LLM Agents

核心思想：规控 = 在已知模型和环境中求解最优轨迹或反馈律。

运动规划
- RRT*（Karaman & Frazzoli, 2011 → 广泛应用至 2017）：渐进最优的采样-based 规划器。
- CHOMP / TrajOpt：基于梯度优化的平滑轨迹生成。
- A/D Lite**：用于离散栅格地图的路径规划。
控制理论成熟应用
- LQR / LQG：线性系统最优控制。
- MPC（模型预测控制）：在无人机、自动驾驶中广泛应用，支持约束处理。
- 阻抗/导纳控制：用于人机物理交互（如协作机械臂）。
软件栈标准化
- ROS 中集成 MoveIt!（操作规划）、navigation stack（移动机器人导航）。

📌 此阶段规控 = “在理想世界中求最优解”。

核心思想：用数据替代部分建模；策略可从专家示范或试错中学习。

模仿学习（Imitation Learning）
- DAgger：解决行为克隆的分布偏移问题。
- 应用于自动驾驶（如 NVIDIA PilotNet）、机械臂抓取。
深度强化学习（DRL）爆发
- DDPG / SAC / PPO：在仿真中训练复杂策略（如 Boston Dynamics 风格 locomotion）。
- Sim2Real 迁移：通过域随机化（Domain Randomization）提升真实世界性能。
学习+优化混合架构
- GPS（Guided Policy Search）：结合轨迹优化与策略学习。
- Learning MPC：用神经网络学习代价函数或动力学模型。

📌 规控开始“智能化”，但仍难部署于安全关键场景。

核心思想：规控应理解任务语义，并直接从原始感知输入生成动作。

视觉端到端导航
- ViNG（ICRA 2021）：从单目图像直接输出导航动作，无需显式建图。
- MTM (Masked Trajectory Modeling)：自监督学习轨迹先验。
语言条件策略（Language-Conditioned Policies）
- SayCan（Google, 2022）：LLM 选择技能，低层控制器执行。
- LM-Nav（ICRA 2023）：用大语言模型生成导航子目标。
多任务通用策略
- RT-1（Robotics Transformer, ICRA 2023）：在 13 台机器人上训练，支持 700+ 任务。
- 输入：图像 + 文本指令 → 输出：关节速度/末端位姿。
安全增强学习
- Control Barrier Functions (CBF) 与 RL 结合，保证安全约束。

📌 规控 = “理解任务并直接行动”，打破“感知-规划-控制”传统流水线。

核心思想：规控是具身智能的核心体现，需融合世界模型、大模型与形式化安全。

具身基础模型（Embodied Foundation Models）
- OpenVLA（2024）：开源视觉语言动作模型，支持跨机器人泛化。
- RoboCat / GR00T（NVIDIA）：在百万级真实+仿真数据上预训练。
世界模型驱动规控
- 内部模拟环境演化，用于想象规划（Imagined Planning）
- 如 PlaNet / DreamerV3 扩展至机器人领域。
大模型作为规控调度器
- LLM 分解复杂任务（“整理桌面” → “抓杯子→放托盘→擦桌子”）
- 调用专用技能模块（skills library）
形式化安全验证
- CBF + MPC + Reachability Analysis 构建安全规控闭环
- 满足 ISO 13482、SOTIF 等标准
人机协同规控
- 共享控制（Shared Autonomy）：人类修正高层意图，机器人处理底层执行

📌 规控 = “安全、通用、可解释的具身决策引擎”。