从技术研究和瓶颈两方面来看:

一、核心研究方向与技术突破

多模态感知与运动控制的深度融合

动态环境导航

传统 SLAM 技术无法直接应用于人形机器人,需要解决三维空间精细感知(比如台阶高度、障碍物动态变化)。MIT 团队提出VLN-KHVR 模型,针对动态环境下的视觉语言导航(VLN-CE)任务,通过知识增强与历史帧特征融合提升导航精度.

VLN-KHVR: Knowledge-And-History Aware Visual Representation for Continuous Vision-and-Language Navigation

ieeexplore.ieee.org/document/11127961

摘要:连续环境下的视觉 - 语言导航(Vision-and-Language Navigation in Continuous Environments, VLN-CE)要求智能体在三维环境中,遵循自然语言指令,通过低层级动作完成导航任务。现有多数方法仅利用当前步骤的观测特征来表征视角,但这类表征往往会混淆导航所需的冗余信息与关键信息,给智能体的动作预测带来模糊性。

为解决表征不足的问题,我们提出了一种适用于连续环境视觉 - 语言导航的 “知识 - 历史感知视觉表征”(Knowledge-and-History Aware Visual Representation for Continuous Vision-and-Language Navigation, VLN-KHVR)。该方法针对导航指令构建增强型视觉表征,以提升智能体的导航性能。

具体而言,VLN-KHVR 会从当前观测中提取图像特征,从知识库中检索相关知识,并获取导航过程的历史信息;随后,对知识特征与历史特征进行过滤,去除与导航指令无关的信息;这些经过提纯的特征会与指令融合,进行进一步交互;最终,利用聚合后的特征指导导航任务。

在 VLN-CE 基准测试中,我们的模型性能优于以往方法,充分证明了所提方法的有效性。

多模态推理能力

从数字到现实:MIT 与 Google DeepMind 合作开发的 Gemini Robotics ,将 Gemini 2.0 的多模态推理能力扩展至物理世界。

Gemini Robotics: Bringing AI into the Physical World

arxiv.org/pdf/2503.20020v1

摘要:大型多模态模型的最新进展,已使其在数字领域展现出卓越的通用能力,但将这些能力迁移到机器人等物理智能体上,仍面临巨大挑战。具备通用实用性的机器人需能理解周围的物理世界,并与之高效、安全地交互。本报告介绍了一类专为机器人技术设计的新型 AI 模型家族,其以 Gemini 2.0 为基础构建而成。

我们提出Gemini Robotics:一款先进的视觉 - 语言 - 动作(Vision-Language-Action, VLA)通用模型,可直接实现机器人控制。该模型能执行流畅且具反应性的动作,应对各类复杂操作任务,同时对物体类型与位置的变化具备鲁棒性,既能处理未见过的环境,也能遵循多样的开放式词汇指令。

研究表明,通过额外微调,Gemini Robotics 可拓展出全新能力,包括完成折纸狐狸、玩纸牌等长时序、高灵巧性任务;仅需 100 次演示就能学会新的短时任务;还能适配完全新型的机器人形态,涵盖双臂平台与高自由度人形机器人。

这一突破的实现,得益于 Gemini Robotics 构建于Gemini Robotics-ER 模型(本研究介绍的第二款模型)之上。Gemini Robotics-ER(Embodied Reasoning,具身推理)将 Gemini 的多模态推理能力扩展到物理世界,同时提升了空间与时间理解能力。该模型支持多种机器人相关核心能力,包括目标检测、指向、轨迹与抓取预测,以及以多视图对应、3D 边界框预测为形式的三维空间理解。

我们还展示了这种新型模型组合如何支持多种机器人应用场景,例如零样本(通过机器人代码生成)或少样本(通过上下文学习)任务。此外,针对这类新型机器人基础模型,我们也探讨并解决了重要的安全考量问题。

双手机器人灵巧操作

浙江大学团队在 IROS 2025 提出 VTAO-BiManip 框架,通过视觉 - 触觉 - 动作 - 物体(VTAO)多模态预训练和课程强化学习,实现动态场景下的双手协同操作(像拧瓶盖这种)。

VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation

arxiv.org/abs/2501.03606

摘要:由于单只手的高自由度及其协同要求,双手灵巧操作在机器人领域仍面临重大挑战。现有单手操作技术通常借助人类演示指导强化学习(RL)方法,但难以泛化到涉及多个子技能的复杂双手任务中。

本文提出 VTAO-BiManip 框架,一种将视觉 - 触觉 - 动作预训练与物体理解相结合的新型框架,通过助力课程强化学习,实现类人双手操作。我们通过融入手部运动数据改进现有学习方法,相比二元触觉反馈,能为双手协同提供更有效的指导。

我们的预训练模型利用掩码多模态输入,预测未来动作及物体位姿与尺寸,从而实现跨模态正则化。为应对多技能学习难题,我们提出两阶段课程强化学习方法,以稳定训练过程。

我们在拧瓶盖任务上对该方法进行评估,结果表明其在仿真与真实环境中均有效。该方法的成功率比现有视觉 - 触觉预训练方法高出 20% 以上。

伦理与社会适应性研究

关于责任界定与安全标准,​欧盟《人工智能法案》(AI Act)正式文本(CELEX:32024R1689)要求人形机器人需具备紧急中断功能和数据隐私保护机制。

eur-lex.europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32024R1689

该法案中,人形机器人在《人工智能法案》中被归类为高风险 AI 系统(High-Risk AI Systems),需严格遵守以下要求:

紧急中断功能(Emergency Stop Function)

所有用于物理交互的人形机器人,必须设计并集成可随时触发的紧急中断机制,包括但不限于物理关停按钮、语音指令终止、远程紧急制动等,确保在机器人行为可能危害人类安全或环境时,能立即停止所有操作。

Article 6 (Requirements for High-Risk AI Systems)
“High-risk AI systems intended for physical interaction with humans or the physical environment (including humanoid robots) shall be designed with built-in emergency stop functions that are easily accessible and operable , and shall not cause foreseeable harm to human health, safety or fundamental rights.”

数据隐私保护机制(Data Privacy Protection Mechanism)

人形机器人在运行过程中收集的环境数据(如视觉图像、音频信息)、人类交互数据(如指令记录、生理反馈),必须符合《通用数据保护条例》(GDPR)要求,包括数据最小化(仅收集必要数据)、知情同意(需明确告知用户数据用途并获得许可)、可删除权(用户可要求删除其相关数据),且禁止未经授权的数据共享或商业化使用。

Article 29 (Data Governance for High-Risk AI Systems)
“Operators of humanoid robots shall ensure that any personal data collected or processed by the AI system is processed in compliance with Regulation (EU) 2016/679 (GDPR), including the principles of data minimization, purpose limitation and accountability. No personal data shall be collected without the explicit consent of the data subject, unless required by law.”

合规性与可追溯性(Compliance and Traceability)

人形机器人的研发、生产、部署需通过欧盟第三方合格评定(如 CE 认证),证明其符合安全、伦理及数据保护标准;同时需建立全生命周期追溯体系,记录机器人的生产批次、软件版本、操作日志等,以便在发生安全事故或合规争议时,追溯责任主体。

Article 48 (Conformity Assessment)
“Before placing a humanoid robot on the Union market or putting it into service, the operator shall undergo a conformity assessment procedure carried out by a notified body, to verify that the AI system meets the requirements set out in this Regulation, in particular those related to safety, traceability and data protection.”

二、关键问题与技术瓶颈

动态环境下的鲁棒性与泛化能力

现有模型在非结构化环境(如家庭、户外)中易受光照变化、遮挡等干扰,需提升感知的鲁棒性。比如微软 Minecraft Education 机器人通过虚拟实验学习物理规律,但真实环境泛化能力仍不足。

education.minecraft.net/en-us/error/404

全身协同控制的复杂性

人形机器人多关节运动需实时计算力的分布,传统机械臂简化模型失效。斯坦福 Mobile ALOHA 在复杂任务中成功率仅 80%,主要因双臂协调与身体平衡控制不足。可尝试思路:基于强化学习的全身控制器训练,如在仿真环境中随机改变地形和外力,提升抗干扰能力。

Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

斯坦福的Mobile ALOHA 机器人,通过模仿学习实现自主乘电梯,成功率从 95% 提升至 98%,2025 年 9 月新增自动按楼层按钮功能。

arxiv.org/abs/2401.02117

摘要:基于人类演示的模仿学习在机器人领域已展现出出色性能,但多数研究成果仅聚焦于桌面操作,缺乏完成通用实用任务所需的移动能力与灵活性。

本研究中,我们开发了一套用于模仿移动操作任务的系统,该类任务需机器人具备双臂协作能力与全身控制能力。首先,我们提出了Mobile ALOHA:一款用于数据采集的低成本全身遥操作系统。它在原有 ALOHA 系统的基础上,新增了移动底座与全身遥操作交互界面。

利用 Mobile ALOHA 采集的数据,我们进一步开展有监督行为克隆训练,并发现:与现有静态 ALOHA 数据集联合训练,能显著提升移动操作任务的性能。在每个任务仅需 50 组演示数据的情况下,联合训练可将成功率最高提升至 90%,使 Mobile ALOHA 能够自主完成复杂的移动操作任务,比如炒虾仁并装盘、打开双门壁柜存放沉重炊具、呼叫并进入电梯,以及用厨房水龙头轻轻冲洗用过的平底锅。

能源效率与续航能力

现有机器人能耗较高,如特斯拉 Optimus Gen2 连续工作时间约 8 小时,难以满足长时间任务需求。可尝试思路:开发轻量化电机、高效电池管理系统,探索能量回收技术(如行走时的动能转化)。

畅想在火星上建设的Optimus。|来源:Tesla Optimus

多机器人协作与通信

工业场景中多机器人协同作业需解决通信延迟、任务分配和冲突避免问题。可尝试思路:基于分布式强化学习的协作策略,结合 5G 或 6G 低延迟通信技术。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐