Figure AI 推出 Helix 02:全身自主控制
Helix 02 将这种控制扩展到整个机器人——行走、操作和平衡作为一个连续的系统完成。Helix 02 是 Figure 迄今为止功能最强大的人形机器人:一个单一的神经网络系统即可直接通过像素控制全身,使其能够在整个房间内灵活自主地进行长时间的移动。
26年1月来自Figure AI的博客 https://www.figure.ai/news/helix-02。
Figure AI 推出 Helix 02
去年,Helix 展示单个神经网络如何通过像素控制人形机器人的上半身。如今,Helix 02 将这种控制扩展到整个机器人——行走、操作和平衡作为一个连续的系统完成。
Helix 02 是 Figure 迄今为止功能最强大的人形机器人:一个单一的神经网络系统即可直接通过像素控制全身,使其能够在整个房间内灵活自主地进行长时间的移动。
Helix 02 代表多项突破:
自主、长时间的移动操作:Helix 02 能够在一个完整的厨房中完成洗碗机的装卸工作——这项全程自主的任务耗时四分钟,整合行走、操作和平衡,无需任何重置或人工干预。这是迄今为止人形机器人自主完成的最长时间、最复杂的任务。
所有传感器输入,所有执行器输出:Helix 02 将所有板载传感器(视觉、触觉和本体感觉)通过单一的统一视觉运动神经网络直接连接到每个执行器。
基于人体数据的类人全身控制:所有结果均由 System 0 实现,System 0 是一款基于超过 1000 小时人体运动数据和模拟-到-真实强化学习训练的全身控制器。System 0 用单一的神经网络先验取代 109,504 行手工编写的 C++ 代码,从而实现稳定、自然的运动。
全新灵巧度:借助 Figure 03 的嵌入式触觉传感和掌部摄像头,Helix 02 能够完成以前无法实现的操作:取出单个药丸、精确分配注射器容量,以及在自身遮挡的情况下从杂乱环境中取出细小不规则的物体。
视频 1:Figure 机器人执行一项持续 4 分钟的任务:走到洗碗机旁,卸下餐具,穿过房间,将物品堆放在橱柜中,装载并启动洗碗机——完全依靠机载传感器,无需人工干预。
挑战:统一人形机器人的运动与操控
几十年来,运动操控——即机器人将移动和操控物体作为一个连续的动作——一直是机器人领域最难解决的问题之一。这并非因为单独实现其中任何一项能力都困难,而是因为二者结合难以清晰分解。举起重物时,机器人的平衡会发生变化;向前迈步时,机器人的触及范围也会发生变化。手臂和腿部会持续相互制约。
人形机器人已经展现出令人印象深刻的短期行为,例如跳跃、跳舞和瑜伽,但几乎所有机器人都存在一个共同的局限性:它们并非真正可控。大多数系统只是在离线状态下重放预先规划的动作,且反馈有限。如果物体发生移动或接触方式发生变化,行为就会崩溃。
传统的机器人技术通过将运动和操控分离到不同的控制器中,并用状态机将它们连接起来来解决这个问题:行走、停止、稳定、伸手、抓取、再次行走。这种切换方式速度慢、难以推理,而且不自然。
真正的自主需要截然不同的东西:一个能够同时协调全身的单一学习系统。一个能够持续感知、决策和行动的系统——边走边搬运,边伸手取物边调整平衡,并实时纠正错误。
这就是为什么打造 Helix 02 的原因。
Helix 02:统一的全身运动操控 VLA
Helix 02 在“系统 1、系统 2”架构基础上增加一个新的基础层:系统 0。
每个系统都以其固有的时间尺度运行。系统 2 (S 2) 缓慢地进行目标推理:解读场景、理解语言和组织行为。系统 1 (S 1) 思维敏捷,以 200 Hz 的频率将感知转化为全身关节目标。系统 0 (S 0) 以 1 kHz 的频率执行,负责处理全身的平衡、接触和协调。它们共同构成一个从像素到扭矩的紧密整合的层级结构。
系统 0:基于人体数据的类人全身控制

S 0 是类人全身控制的基础模型:它学习人们在保持平衡和稳定性的同时如何运动的先验知识。它是 Helix 02 物理具身化的基石:当更高层负责推理任务和计划时,S 0 确保每个动作都能流畅、安全、稳定地执行。
S 0 并非为行走、转身、蹲伏或伸手等动作设计单独的奖励函数,而是直接从庞大且多样化的运动数据集中学习追踪人体运动。在学习复现这些运动的过程中,该策略学会如何协调力、调整姿势,并在实现通用移动操控所需的所有行为范围内保持平衡。
训练数据:超过 1000 小时的关节级重定向人体运动数据。
架构:一个 1000 万参数的神经网络,以全身关节状态和基础运动作为输入,并以 1 kHz 的频率输出关节级执行器指令。
仿真训练:S 0 完全在仿真环境中训练,使用超过 20 万个并行环境,并进行广泛的域随机化,从而能够直接迁移到真实机器人,并实现对整个机器人群的泛化。
系统 1:“所有传感器输入,所有关节输出”视觉运动(Visuomotor)策略

在初代Helix中,S 1控制上半身,并读取关节状态和图像。在Helix 02中,它连接所有传感器,控制整个机器人。
输入:头部摄像头、掌心摄像头、指尖触觉传感器和全身本体感觉传感器。
输出:对整个机器人(包括腿部、躯干、头部、手臂、手腕和各个手指)进行完整的关节级控制。
这种像素-到-全身的架构使S 1能够将机器人和环境作为一个整体耦合系统进行推理。掌心摄像头和触觉传感器是新硬件功能。这是依赖于这些模态的神经网络策略。
当物体被遮挡而无法被头部摄像头捕捉到时,掌心摄像头可提供手内视觉反馈。嵌入每个指尖的触觉传感器可以检测到低至3克的力——灵敏度足以感知回形针——从而实现接触感知、力调节的抓取。这些感知模式使Helix能够充分发挥五指手的灵巧性,完成需要多指抓握精细运动控制的复杂操作任务。
S 1仍然是一个基于系统2潜信号进行条件反射的转换器,但现在能够生成全身关节目标,S0以千赫兹的频率进行追踪。
系统 2:场景理解和语言
系统 2仍然是语义推理层:处理场景、理解语言并为S 1生成潜目标。Helix 02极大地扩展S 2可以指定的行为范围。
之前:
“拿起番茄酱。”
现在:
“走到洗碗机旁并打开它”
“把碗拿到台面上”
“回到上层架子上拿起杯子”
S 2无需规划低级步态或指定如何协调手臂和腿部。它生成一系列语义潜信号,S 1将其解释为运动指令,S 0执行这些指令。
结果 1:自主长时域移动操作
Helix 02 能够执行持续数分钟的任务,这些任务需要运动、灵巧性和感知能力的全面整合。
评估 Helix 02 在需要运动、灵巧性和感知能力全面整合的任务上的表现。以下所有视频均为完全自主操作,而非远程操控。
在视频 1 中,展示 Helix 02 执行一项扩展移动操作任务:在全尺寸厨房中装卸洗碗机。这段持续 4 分钟的操作是迄今为止展示的最复杂的自主操作序列。这也是首次在人形机器人上演示如此长时域、端到端的“像素-到-全身”控制。
这项研究展示:
在操作限制下的运动能力。机器人能够抓握易碎物品行走,并在每一步都保持稳定的抓握。
全身协同:当双手被占用时,机器人会用臀部关闭抽屉,用脚抬起洗碗机门——它利用整个身体作为工具,而不仅仅是依靠双手。
全程双手协调:机器人的双臂协同工作,完成物品的拾取、双手间转移、堆叠和放置等动作。
跨尺度的运动范围。同一个神经网络能够产生毫米级的精细手指运动和房间尺度的运动——动态范围跨越四个数量级。
长时程序列执行:机器人能够正确执行61个运动操作动作,并具备隐错误恢复能力。机器人能够在数分钟的执行过程中保持任务状态。
结果 2:触觉与手内视觉的灵巧操作
Helix 02 的触觉传感和掌心摄像头突破纯视觉策略的限制,实现更多操作任务。以下展示四项多指灵巧操作的前沿任务。以下所有视频均为机器人完全自主运行,而非远程操控。
灵巧任务 1:拧开瓶盖
机器人必须稳定瓶子,同时施加持续可控的旋转力以拧开瓶盖,避免瓶子滑落或被压扁。这需要双手协调,并由触觉调节抓握力和扭矩。
灵巧任务 2:从药盒中定位并取出药片
机器人必须从药盒中定位并取出单个小药片,通常情况下,药片会被头部摄像头遮挡。这需要掌心视觉反馈和触觉引导的精准抓取。
灵巧性任务 3:从注射器中精确推出 5 毫升液体
机器人必须推动注射器活塞,在阻力变化和公差严格的情况下,精确地分配液体。这需要力控驱动、触觉反馈以及多指协调稳定。
灵巧性任务 4:从杂乱的盒子中取出金属部件
机器人必须从一堆相互重叠、遮挡且在交互过程中会移动的金属部件中取出小型金属部件。这需要机器人在杂乱环境中进行稳健的视觉抓取选择,并通过触觉确认牢固接触。下图展示从BotQ 制造工厂卸载真实金属部件的过程。
结论
一年前,Helix 展示单个神经网络可以控制人形机器人的上半身。如今,Helix 02 将这种能力扩展到了整个机器人。
Helix 02 融合 S 0(提供学习型全身控制)、S 1(连接所有传感器和执行器)以及 S 2(支持扩展任务的语义推理)三个模块,实现全新的功能:持续的、房间级的自主移动,并能无缝地融合行走和操作。
目前成果尚处于早期阶段,但已展现出持续全身自主移动的无限可能。Helix 02 完成一项持续 4 分钟的自主任务,流畅地执行 61 个移动操作动作,触觉传感和掌部摄像头赋予它灵巧的操控能力,并实现了臀部、脚部、手部和手臂的全身协调。
更多推荐

所有评论(0)