manipulation十年演进

摘要： 2015-2025年，机器人操作技术经历了从机械轨迹规划到具身智能的跨越式发展。早期依赖几何算法（如MoveIt!）处理刚性物体，2018年后深度学习（如OpenAI魔方手）和触觉传感器（GelSight）实现了非结构化环境下的操作。2025年，扩散策略和视觉-语言-动作模型（VLA）使机器人具备多模态感知、抗干扰能力和零样本学习，如通过eBPF实现微秒级触觉反射。核心突破在于从“抓取”升

jzwspace

644人浏览 · 2026-02-05 18:55:26

jzwspace · 2026-02-05 18:55:26 发布

Manipulation（操作/操纵） 的十年（2015–2025），是从“预定义轨迹的重复机械臂”向“具备人类级触觉与通用能力的柔性手”演进的十年。

这十年间，机器人操作的核心挑战从**“精确抓取”转向了“非结构化环境下的复杂交互”**，实现了从工业围栏内的自动化到人类家庭环境中的自主化的跨越。

一、核心演进的三大技术范式

1. 基于几何与规划的传统期 (2015–2017) —— “计算几何的巅峰”

核心技术： 运动规划 (OMPL)、抓取位姿检测 (GPD)。
里程碑： 2015 年首届亚马逊拣选挑战赛 (Amazon Picking Challenge)。
技术逻辑： 工程师预先扫描物体的 3D 模型，计算最优抓取点，并通过 MoveIt! 等框架规划避障路径。
痛点： 面对半透明、反光、或是未见过的新物体时，系统极易崩溃；无法处理衣物、线缆等柔性物体。

2. 深度学习与视觉反馈期 (2018–2022) —— “感知与动作的解耦”

核心技术： 强化学习 (RL)、触觉感知 (GelSight)、行为克隆 (BC)。
里程碑： 2019 年 OpenAI 的魔方手（Dactyl）通过强化学习自主学会单手转魔方。
技术跨越：
端到端萌芽： 2021 年起，模型开始尝试将原始图像直接转换为关节指令，不再依赖繁琐的中间几何模型。
触觉赋能： 像 GelSight 这样的高分辨率视觉触觉传感器让机器人拥有了“电子皮肤”，能感知指尖的滑动和纹理。
状态： 机器人开始能处理凌乱的货箱（Bin Picking），抓取成功率突破 90%。

3. 2025 具身智能与扩散策略时代 —— “动作的通用化”

2025 现状：
扩散策略 (Diffusion Policy)： 2025 年的操作控制多采用扩散模型。由于该模型能表达动作的多峰分布（即一个任务有多种做法律），机器人的动作变得极度丝滑且具备自纠错能力。
视觉-语言-动作大模型 (VLA)： 2025 年的机器人（如 RT-2-X 或 Gemini-Embodied）理解指令：“帮我把快过期的牛奶拿出来”。它不仅要识别文字，还要观察日期并执行精密的旋转抓取。
eBPF 驱动的触觉反馈流： 为了让机械手具备像人一样的“条件反射”，2025 年的系统利用 eBPF 在内核态直接处理触觉传感器的高频中断，实现微秒级的防滑补偿。

二、 Manipulation 核心维度十年对比表

维度	2015 (传统工业/规划)	2025 (具身智能/VLA)	核心跨越点
感知方式	3D 视觉点云对齐	视觉+触觉+语言多模态融合	从“看物”到“识意”的跨越
物体适应性	仅限已知几何刚体	柔性体 / 透明体 / 未知新物体	解决了非结构化环境的普适性
动作连贯性	离散的“移动-抓取-移动”	端到端连续流式动作 (60Hz+)	动作从“抽风式”变为“丝滑式”
训练数据	人工编写启发式算法	远程遥操作 + 视频数据大规模模仿	从“人教指令”到“看视频自学”
系统底座	用户态控制架构 (ROS)	eBPF 内核级感知-动作闭环	反应速度实现了量级提升

三、 2025 年的技术巅峰：从“抓取”到“灵巧操作”

在 2025 年，Manipulation 已经不再是单纯的“位移”，而是精细的力学博弈：

扩散策略 (Diffusion Policy) 与自愈：
2025 年的操纵系统具备强大的“抗干扰性”。如果你在机器人拿杯子时推它一下，基于扩散策略的模型不会卡住，而是会像人类一样顺势调整路径，继续完成任务。
eBPF 驱动的“触觉反射回路”：
针对 2025 年流行的五指灵巧手，单手拥有数百个触觉单元。SE 利用 eBPF 在 Linux 内核层直接审计指尖压力。

动态防滑： 当检测到物体滑动的微小剪切力时，eBPF 程序在内直接触发握力增强，无需经过复杂的应用层逻辑。

零样本操作 (Zero-shot Manipulation)：
得益于 2025 年万亿级图像-动作对的预训练，机器人面对从未见过的奇异水果，也能根据其视觉质感“直觉”出最合适的抓取力度和位置。

四、总结：从“工具”到“助手”

过去十年的演进，是将机器人操作从**“坐标轴里的数学题”重塑为“能够理解物理常识并具备精细触觉的数字化身”**。

2015 年： 你在纠结如何用算法计算出一个透明玻璃瓶的边缘。
2025 年： 你在利用 VLA 模型和 eBPF 审计，让机器人一边跟你聊天，一边轻巧地剥开一个煮熟的鸡蛋。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

解密逆向工程：破解遗留代码的终极指南

这篇综述通过对 83 篇学术论文的系统性回顾，让我们得以一窥软件逆向工程领域的真实面貌。这些发现共同描绘了一幅复杂的图景：这是一个以理解为基石、以实用主义为主导的领域，但其学术焦点却与最棘手的工业难题存在偏差，并且正处在两种不同范式和人工智能新机遇所驱动的深刻变革前夜。核心思想依然明确：在软件系统日益复杂的今天，理解并演进遗留系统是一个永恒的挑战，而模型驱动的方法为此提供了结构化、系统化的解决方案