这是25年8月来自 Oregon State U 教授 Alan Fern 的网络文章“The Emerging Humanoid Motor Cortex: An Inventory of RL-Trained Controllers”。

人类的协调运动并非仅仅源于有意识的规划中心。当人决定穿过房间或伸手去拿杯子时,决定如何激活每块肌肉的并非前额叶皮层(大脑的规划者)。相反,这项工作落到运动皮层——大脑中一组专门的区域,它将高级意图转化为精确、实时的肌肉激活,以保持平衡并流畅地运动。这种分工使得大脑的规划区域专注于目标和策略,而运动皮层则负责处理快速、反应灵敏的动作执行工作。

人形机器人也面临着同样的根本挑战。高级规划者可以选择目标和轨迹,但它们无法直接管理在现实世界中执行这些计划所需的毫秒级关节扭矩和平衡调整。全身控制器 (WBC) 应运而生。WBC 的功能类似于人类的运动皮层,它充当机器人的执行层,连接低级协调运动信号和抽象指令(例如根速度、关节目标或关键点轨迹)。WBC 实时运行,还必须处理意外干扰和物理世界固有的不确定性,确保机器人保持稳定和响应。

运动皮层类比表明,类人 AI 应该包含明确的 WBC。但仅有类比是不够的。在这个“惨痛教训”往往倾向于采用手工设计结构最少的端到端架构的时代,值得思考的是:真的需要明确的 WBC 吗?还是只需要一个端到端架构?

为什么要明确的 WBC?

在过去的18个月里,学术界和工业界涌现出大量的类人机器人演示和论文,涵盖了行走、跑步、舞蹈、武术、吸尘、杂货搬运、包裹分拣等等。这些系统采用各种人工智能架构,其中许多都涉及机器学习。那么,这些系统是否真的包含明确的全身控制器呢?

在大多数情况下,答案是肯定的。考虑一类非常常见的演示,其中类人机器人的运动由远程操作界面控制,或者由动作捕捉或视频重定位的人体运动控制。在这些设置中,整个人工智能堆栈实际上就是一个WBC:它的唯一任务是生成能够稳定、准确地跟踪目标运动的低级运动指令。

另一类演示是自主任务执行,例如包裹分拣或取放。通常,这些系统是根据人类远程操作数据进行训练的,这依赖于 WBC 在数据收集过程中根据远程操作输入产生稳定的机器人运动。因此,WBC 至少参与了通常涉及广泛的数据收集工作。但是测试时执行架构又如何呢?

实际的测试时架构可能包含或不包含显式 WBC。例如,斯坦福大学 HumanPlus (https://humanoid-ai.github.io/)分层架构在最低层包含一个显式冻结 WBC。WBC 首先进行训练,然后用于收集演示。这些演示数据用于训练更高级别的模型,该模型通过自主生成输入到 WBC 的动作来取代人类远程操作员。

另一种架构,例如 Figure 的 Helix,是一个端到端的两级层级结构,其中高级视觉-语言模型以较慢的控制速率运行,而低级策略以较快的速率生成运动指令。在这些情况下,低级策略本质上就是 WBC,尽管它是与系统的其他部分联合训练的,而不是作为一个单独的可重用模块。

端到端方法的吸引力在于,有了足够多样化的远程操作员数据,低级策略就可以广泛推广,而无需额外的工程设计。但风险也随之而来:仅基于演示训练的策略,可能缺乏经过精心训练和测试的 WBC 所具备的稳定性和抗干扰能力。例如,如果数据集中没有这些事件,这样的策略如何学会从意外的推动中恢复?如果无论如何都需要一个强大的 WBC 在远程操作过程中提供这些示例,为什么不把它保留在最终栈中呢?

目前,经过明确训练的 WBC 仍然很有价值 —— 既可以作为强大的执行层,也可以作为可独立测试的组件,无需重新训练整个人形 AI 即可进行改进。但仍处于早期阶段,实践经验最终将获得更多指导。

为什么要学习 WBC?

固定基座和轮式机器人本质上是稳定的,底层控制通常可以依赖于标准的、基于模型的方法。高级规划器指定末端执行器轨迹,简单的底层控制器(例如逆运动学 + PD)将其转换为平滑的关节扭矩——无需担心平衡问题。相比之下,人形机器人本质上是不稳定的双足机器人(bipeds)。他们的低级控制器必须主动管理平衡和全身协调才能站立不动,更不用说行走或操纵物体了。

基于模型的类人机器人全身控制(WBC)由来已久,其构建技术主要围绕逆动力学、降阶模型和模型预测控制等。虽然这些方法已经取得了令人印象深刻的成果——最著名的是波士顿动力(BD)公司等公司以其精湛的工程系统——但它们在更广泛的研究领域尚未取得可比性。除了少数工程投入巨大的努力外,基于模型的控制尚未达到学习型控制器的稳健性、灵活性或易部署性。

这就是为什么学习型全身控制器日益流行的原因——通常通过模拟中的强化学习进行训练,然后迁移到真实硬件上。学习型全身控制器可以内化复杂的动力学、平衡策略和流畅运动所需的快速反应行为,而这些特性很难被明确编码。其结果是,传统方法在没有大量工程投入的情况下难以达到的性能和通用性水平。

值得一提的是,基于学习的方法比基于模型的方法更受青睐的另一个原因是:入门门槛更低。构建基于模型的系统需要控制理论、动力学建模和优化方面的深厚专业知识,而基于学习的流程通常无需这些背景即可构建。这并不意味着传统技能就变得无关紧要,因为理解这些基础知识对于塑造直觉和诊断问题仍然至关重要。然而,人形机器人最终能否通过手工制作的模型和控制器来“解决”,是一个值得深究的问题。功能齐全人形机器人的计算复杂性,可能超出了通过分析所能捕捉的范围,至少在短期内是如此。真正的挑战并非推导出完美的方程式,而是学习如何最有效地训练能够自主掌握这些复杂性的系统。

如表所示:18 个强化学习训练的 WBC 清单中关键特征总结

请添加图片描述


强化学习训练的全身控制器(WBC)组件

最近关于从模拟-到-现实的学习型全身控制器的研究激增。这些系统完全在模拟环境中进行训练,然后迁移到真实的人形机器人身上。这种方法现在感觉不像是一个实验,而更像是 WBC 子领域的发展方向。

为了帮助理解这个快速发展的领域,如下给出一份学习型 WBC 组件的清单,并根据其功能、架构和训练策略对其进行分类:https://docs.google.com/spreadsheets/d/1wPq9GXhw_By0BKTV85FzhE6ibbOe5un_dITvMGQ0Zp4/edit?gid=0#gid=0

请添加图片描述

为了保持研究范围的集中,清单中的每个 WBC 都符合五个标准:

  1. 在真实的人形机器人上进行演示(而不仅仅是模拟)。
  2. 记录在一篇相当详细的技术论文中。
  3. 通过深度学习进行训练,通常结合强化学习和监督学习。
  4. 控制所有驱动关节,而不是将身体各部位委托给传统的基于模型控制器(手部除外)。
  5. 作为通用运动接口,而非针对单一技能或任务进行调整。

在 18 个系统中,有 14 个同时支持运动和某种形式的操控(loco-manulation):Hover;MHC;R2S2;GM​​T;ExBody2;TWIST;HST (HumanPlus);ExBody;FALCON;ARMOR;VMP;CLONE;OmniH20。其余 4 个专注于运动:H20;SaW;UCB-Loco;VideoMimic;ETH-Loco。这些系统仍然符合人形 WBC 的条件,因为即使是“纯”运动也需要协调的全身运动,包括躯干和手臂的调节以保持稳定性。

上表粗略地展示数据,涵盖 WBC 的关键方面。本文目标是提供一个关于这些强化学习训练 WBC 的构建和运行方式的简易教程,并重点介绍当前形势下出现的一些趋势和差距。

机器人平台

首先是关于机器人平台的信息。趋势很明显:18 个控制器中有 12 个运行在 Unitree 硬件上:6 个运行在 G1 上,5 个运行在 H1 上,还有 1 个同时运行在 G1 和 H1 上。其次是 Agility Robotics 的 Digit V3,它出现在 3 个条目中。

Unitree 在该榜单中的主导地位并不令人意外。在 H1 面世之前,研究人员几乎没有机会获得人形机器人,除非他们与企业有深厚的联系或自行进行工程设计。大多数商业人形机器人开发商要么不向学术机构销售产品,要么专注于严格控制的试点项目。相比之下,Unitree 的人形机器人易于订购,价格相对实惠,且功能齐全,足以满足严肃研究的需求。虽然 G1 的标价低至 1.6 万美元,但一套设备齐全的机器人售价可能在 4 万至 5 万美元之间,这大致相当于许多实验室投资一台中等规模的 GPU 服务器。

同样重要的是,G1 和 H1 易于模拟。两者都采用简洁的设计和广泛可用的物理模型,使其易于集成到 MuJoCo 和 NVIDIA 的 Isaac 等引擎中,进行模拟-到-现实的训练。这种经济实惠和数字化可及性的结合,比以往任何时候都更降低了人形机器人研究的门槛。

更广泛的趋势显而易见:随着更多低成本人形机器人进入市场,学习型全身控制和更高级别人形 AI 的进步速度只会加快。但这种可及性也会带来大量嘈杂且质量参差不齐的工作,就像在整个人工智能领域所看到的那样。

WBC API:输入/输出

WBC 提供一个 API,用于连接高级运动命令和机器人的低级电机控制。如图展示该 WBC API 在整个机器人控制堆栈中的典型布局。表中显示该 API 的输入和输出选项。

请添加图片描述

WBC 输出

该表显示,每个 WBC 都会输出机器人驱动关节的关节位置设定值(即目标电机位置),控制速率始终为 50 Hz(指定频率)。

这些设定值并非直接驱动电机,而是输入到一个运行频率约为 1000 Hz 的比例-微分 (PD) 控制器,将目标位置转换为电机扭矩。PD 增益手动调整并保持不变,为扭矩级控制提供一个快速且可预测的层。

为什么采用这种两-阶段方法,而不是让 WBC 直接输出扭矩?部分原因在于与前期工作的延续性——这种结构常用于基于物理的角色动画以及早期学习型腿部运动的成功案例。但也存在一些实际的工程原因:

  1. 硬件限制:平滑的接触反应式电机控制通常需要约 1000Hz 的驱动频率。考虑到板载计算能力的限制,以该频率运行神经网络 WBC 极具挑战性。使用 PD 层作为缓冲区,WBC 可以以 50Hz 的频率运行,从而实现更高的计算能力。
  2. 强化学习效率:库存中的所有 WBC 都至少部分地接受过强化学习训练,将决策率从 1000Hz 降低到 50Hz 可将每回合的决策次数减少 20 倍。这不仅减少训练期间神经网络调用的次数,还缩短强化学习的时长,简化信用分配并加快学习速度。 PD 层在这里扮演着第二个更微妙的角色:它就像一个减震器,在现实世界中嘈杂且接触丰富的动态信息到达 WBC 之前,将其平滑掉。通过缓冲 WBC 免受这些干扰的全面冲击,PD 控制器使 RL 问题更容易解决。

这种以中等速率生成关节设定值,并由高速率 PD 层稳定的模式,已成为学习型人形 WBC 的默认模板。这种选择是否会暴露出局限性,尤其是在需要精确力控制操作的应用中,还有待观察。

输入 1:机器人状态

每个 WBC 都以机器人运动学和动力学状态的某种表示作为输入,但具体信号各不相同。所有 18 个控制器至少都依赖于来自机器人关节编码器和惯性测量单元 (IMU) 的本体感受数据。具体来说,每个 WBC 都会使用以下信息:
关节角位置和速度
根重力矢量(或等效地,机器人的横滚和俯仰)
根角速度

这些量可以通过板载编码器和 IMU 进行可靠估算。

然而,仅仅提供当前状态不足以完全捕捉机器人的动态。加速度或高阶运动的信息无法从单个快照推断出来,因此 WBC 使用几种不同的策略来恢复这些信息:

  1. 本体感受历史记录:许多控制器在其输入中包含近期本体感受状态的窗口,为策略提供推断加速度的时间上下文。历史记录长度因实现而异,范围从 25 到 1(无历史记录)。
  2. 动作历史记录:一些 WBC 还包含其自身近期输出/动作(关节设定点)的历史记录,这有助于策略消除诸如动量或执行器滞后等动态效应的歧义。历史记录窗口的范围从 25 到 0(无动作)。其中 13 个 WBC 同时包含本体感受和动作。
  3. 内部记忆:两个系统使用内置循环的 WBC 架构(例如 LSTM),使其能够保留历史记录的压缩内部表示,而不是完全依赖于显式历史记录窗口。

总体而言,该表展示多种用于捕捉机器人动态状态的策略。只有一个 WBC 完全依赖于当前的本体感受状态,而不包含动作或时间上下文(尽管这可能反映了描述的不完整)。其他 17 个 WBC 都包含状态历史记录、动作历史记录或两者兼而有之,其中 13 个同时使用两者。这表明某种形式的时间上下文对于捕捉机器人的动态通常很重要,但具体的配置——历史记录长度、动作包含情况或对循环的依赖——往往被视为可调的超参,并根据研究中发现的有效方法进行务实的选择。

一个较小的子集(4 个 WBC)也将线性根速度作为状态的一部分。然而,众所周知,利用 IMU 数据估算腿式机器人的线速度非常困难且噪声较大。在实际评估中,这些WBC依赖于外部运动追踪系统来提供速度估计,这对实际部署来说是一个重大限制。

两个仅用于运动的 WBC 更进一步,整合局部地形高度图,以帮助其适应崎岖地形。其中一个高度图来自先前建模,并结合运动捕捉定位;另一个高度图则来自使用激光雷达或深度感应的在线重建。其余 WBC 则专注于相对平坦的地形,盲走就足够。

事实上,18 个 WBC 中有 16 个对外部世界“视而不见”,完全依赖本体感觉,并将任何视觉或环境推理委托给更高级别的控制。这引出一个重要的设计问题:WBC 应该处理多少外部感觉输入,以及用于什么目的?

答案似乎并非为零。例如,在爬楼梯时,高级规划器是否应该对脚的位置进行微观管理,或者如果给定高度图,WBC 是否应该处理基本的、“常识性”的步数选择?是否应该将所有防撞任务(即使是针对局部的小障碍物)都推给高层规划器?还是应该让 WBC 拥有足够的空间感知能力,做出局部的被动调整?挑战在于,如何赋予 WBC 足够的外部感知能力来处理局部的被动决策,同时保持其推理的浅层性,将更抽象的规划留给上层。

输入 2:目标运动命令

从 WBC API 的角度来看,最重要的输入类别是目标运动命令,它指定 WBC 必须实现的更高层意图。这些命令可以在非常不同的抽象层次上表达,而这种选择不仅决定 WBC 必须内部计算的内容,还决定了哪些模态可以驱动它。

例如,由基于 VR 遥操作驱动的控制器受益于简单的接口:末端执行器目标和基准速度,而 WBC 则负责填充身体的其余运动。相比之下,当目标是从动作捕捉或视频中重现人体运动时,命令输入必须更加丰富——通常需要指定全身关节角度或关键身体位置,以忠实地捕捉演示。抽象层次既反映上游源(遥操作、规划器、运动重定向),也反映 WBC 的预期角色,无论是作为面向任务的执行层还是忠实的运动再现器(reproducer)。

在 18 个控制器中,主要有四种命令模式(许多 WBC 支持多种模式):

  1. 根速度目标(9 个 WBC):此模式支持类似操纵杆的运动控制,其中机器人的根部被赋予目标线速度和角速度。这种抽象非常有价值,因为它将步态生成、平衡管理或全身姿势的重任完全交给 WBC。
  2. 根姿势目标(11 个 WBC):大多数操作控制器允许直接指定基准方向或倾斜度,这对于倾斜触及物体或在操作过程中调整姿势等任务至关重要。
  3. 全身姿势目标(8 个 WBC):这些控制器可以跟踪全身配置,以身体关键点(骨盆、脚、手、头)或完整关节角度表示。关键点对于动作捕捉和视频输入尤其方便,因为它们会自然地产生关键点。然而,对于仅接受关节位置的 WBC,关键点可以通过逆运动学转换为关节位置,这会增加上游的计算成本。
  4. 上半身姿势或末端执行器目标(6 个 WBC):在不跟踪全身姿势的控制器中,大多数仍然支持上半身姿势或手部目标输入(通过关键点或关节)。其中三个控制器将此与根速度控制相结合以实现运动,而其他控制器则根据需要隐式生成运动以实现上半身目标。从提供高级操控界面的角度来看,支持上半身姿势 + 根速度的组合可能是实际应用领域中的最佳选择。

除了这些模态之外,多模态也是一个重要特性。虽然 15 个 WBC 使用固定的命令输入格式,但三个控制器允许命令接口变化:同一个 WBC 可以通过简单的根速度命令驱动进行导航,也可以通过详细的关键点或关节目标驱动以实现全身精度。相比之下,一些控制器需要始终同时获取全身姿势目标和根速度,这限制它们作为纯粹“操纵杆”抽象的用途,因为上游系统必须不断生成全身目标。从 API 的角度来看,多模态灵活性非常有吸引力,因为它允许单个 WBC 跨越多个角色——从粗略的执行器到详细的再现器——而无需重训练或在不同的 WBC 之间切换。

无论采用何种模态,所有 WBC 都作为密集、高速率的跟踪器运行,以约 50Hz 的频率接收目标运动输入。它们并非设计用于自主规划朝向远距离目标的运动,而是遵循来自上游源的详细实时参考。大多数 WBC 仅接受下一帧目标,但其中三个还处理较短的未来轨迹,通过预测运动变化实现更平滑的跟踪。然而,这种目标运动预览仅在未来目标可用时才实用,因此不适用于实时远程操作,因为在实时远程操作中,人类输入是逐帧到达的。

总体而言,这些命令界面的选择在很大程度上反映每个 WBC 旨在支持的演示类型或上游控制。面向任务的演示(例如移动物体或在路径点之间行走)通常依赖于低维输入,例如根速度和末端执行器姿势,而动作捕捉模仿则需要高维全身目标来捕捉细节。尽管多模态界面仍然占少数,但随着 WBC 被部署到更广泛的应用中,它们很可能成为常态,在这些应用中,简单和精细的控制都必不可少。

最后,如今的 WBC 将所有运动规划都交给更高级别的控制器,即使是像伸手去拿附近的物体这样看似常识性的动作也是如此。展望未来,可能会看到 WBC 进化到能够处理更稀疏、时间密度更低的目标,从而释放更高级别的推理层(例如视觉语言模型),使其专注于任务的语义方面,而不是对常规动作进行微观管理。


库存中的所有 WBC 均完全在模拟环境中进行训练,并将生成的策略迁移到真实硬件上。虽然从模拟-到-真实的迁移涉及一系列技巧,例如域随机化和外部力扰动,但本文将重点介绍控制器在模拟环境中的训练方式,因为大多数设计选择都发生在模拟环境中。

为何选择强化学习?

强化学习 (RL) 是训练库存中所有 WBC 的基础,因为针对低级动作的大规模监督数据根本不存在。虽然人类可以演示动作,但他们无法直接标记实现这些动作所需的关节设定点(WBC 输出)的精确序列,而这对于监督学习来说是必需的。然而,可以评估动作的质量:如果控制器尝试遵循目标命令,可以衡量最终动作与意图的匹配程度。将此视为奖励信号自然会引发 RL,控制器通过反复试验进行学习,以在多个模拟场景中获得最大化的奖励。

每个 WBC 强化学习训练流程都共享一个基本结构:

  1. 场景生成:构建目标运动指令、机器人初始状态和地形的分布,然后对机器人必须遵循指定指令的场景进行采样。
  2. 奖励设计:定义一个奖励函数,鼓励机器人在保持平衡性、平滑度和能量效率的同时匹配目标指令。
  3. 策略优化:使用强化学习算法训练控制器,由于其稳定性和可扩展性,几乎总是使用近端策略优化 (PPO)。

以下依次介绍每个步骤。

Episode 生成

在 14 个局部操控 WBC 中,有 13 个场景的场景生成利用人体运动捕捉数据集,这些数据集被重定位到所需的机器人本体。每个场景都会采样一​​个运动片段,在随机帧处初始化机器人,并根据该片段生成目标指令。例如,一个人行走的动作捕捉片段可能会生成一系列目标根速度或身体关键点,供 WBC 追踪,具体取决于所选的 WBC 命令模式。最常用的数据集(9 个 WBC)是 AMASS,它包含 40 小时的运动数据,涉及数百名受试者和 11,000 多个动作。其次是 CMU Motion 数据集(4 个 WBC)。此外,许多 WBC 使用自己的动作捕捉数据和/或现有数据集的增强数据来补充现有数据集。

相比之下,四个纯运动 WBC 和一个局部操控 WBC 的训练不使用离线动作捕捉数据。相反,它们采样随机根速度命令(例如,前进速度、转弯、侧步),并依靠奖励塑造(reward shaping)来发现能够匹配速度命令的稳定步态。同样,对于局部操控​​,可以将随机目标末端执行器位置采样作为训练命令。

为了提高效率,所有这些训练大部分都在平坦或近乎平坦的地面上进行。然而,至少有 2 个 WBC 混合使用了程序生成的地形,例如坡道、楼梯、不平坦的路面,以提高地形鲁棒性。

平衡离线数据集和合成生成的最佳方案尚不清楚。像 AMASS 这样的大型动作捕捉数据集提供了多样性和真实感,但往往缺少实际应用所需的特定任务动作和反应行为。相比之下,程序生成的场景或自定义动作捕捉可以精心设计,以密集覆盖所需的任务空间。最终,设计正确的训练分布可能是提升 WBC 能力的最关键因素。

奖励设计

虽然细节各不相同,但大多数 WBC 奖励函数平衡三个核心组成部分:

  1. 跟踪精度:机器人运动与目标运动命令的匹配程度。例如,如果目标命令模态是根速度,那么当机器人以正确的速度移动时,奖励将最大化。相反,如果目标是全身关键点追踪,那么当实际机器人关键点与目标关键点完美对齐时,奖励最大化。
  2. 稳定性和平衡性:惩罚跌倒、过度倾斜或快速角速度。
  3. 平滑度和效率:抑制急促运动和过度扭矩消耗,以促进自然、节能的步态。

由于双足运动本质上是周期性的,难以通过纯粹的探索发现,因此 15 个 WBC 包含明确的步态塑造奖励,这些奖励基于早期运动研究的技术。例如,脚腾空时间奖励鼓励交替脚部接触——确保一只脚落地时另一只脚移动,但避免过长的站立姿势。

奖励设计仍然是 WBC 训练中最耗时且最临时的环节之一。这些多组分奖励函数需要精心调整权重,但每个选择的影响通常只有在经过长时间且成本高昂的强化学习运行后才能显现。结果高度敏感,而且由于缺乏用于设置这些参数的原则性方法,奖励塑造往往感觉既像艺术又像科学。开发更好的工具和方法可以显著改善 WBC 工程师的日常工作流程。

策略优化

所有 18 个 WBC 都使用 PPO(近端策略优化)作为核心强化学习算法。PPO 的流行部分源于其稳定性、可扩展性和易于并行化,但也源于其历史发展势头。许多实验室已经围绕 PPO 构建用于腿部运动的专业知识和基础设施。虽然其他强化学习算法的性能可能与 PPO 相当甚至超过 PPO,但 PPO 仍然是主力,因为它运行可靠,并且尚未成为 WBC 开发的瓶颈。

超越纯强化学习:师-生流水线

虽然强化学习是所有 WBC 训练流水线的基础,但 18 个控制器中有 9 个使用师-生框架来简化学习过程并提升鲁棒性。该过程分为两个阶段:

  1. 首先使用强化学习训练教师策略,但教师策略可以访问最终控制器无法获取的特权信息(例如,完整的世界状态估计、真值接触或未来的运动指令范围)。这些信息旨在显著简化强化学习问题,尤其适用于涉及复杂接触或快速动态的行为,否则部分观察会减慢或破坏学习的稳定性。
  2. 然后,通过监督模仿训练学生策略,使其与教师策略的动作相匹配,并仅使用运行时可用的有限观察值。大多数流程采用 DAGGER(数据集聚合)——在模拟环境中运行学生模型,向老师模型查询每个状态下的“正确”动作,并通过监督损失(通常为均方误差)训练学生模型,使其与老师模型的偏差最小化。

师-生模型流程具有明显的优势:它们分解问题,让强化学习专注于掌握理想条件下的行为,而学生模型则处理模拟到现实的约束,例如感知受限。然而,这带来了额外的复杂性——无论是在设计老师模型还是调整蒸馏过程方面。值得注意的是,同样数量的 WBC 仅使用纯强化学习就获得了成功,这表明最佳训练流程仍然高度依赖于任务和团队。随着 WBC 朝着更高的通用性和性能方向发展,课程设计和师-生模型等混合模型可能会发挥越来越大的作用。


网络架构

与计算机视觉或语言建模等领域常见的复杂且高度优化的设计相比,用于 WBC 的网络架构仍然相对简单且规模较小。库存中的一半控制器(18 个中的 9 个)依赖于简单的多层感知器 (MLP),将机器人的状态和运动命令直接映射到关节设定点。

尽管如此,一些 WBC 扩展基础 MLP,以解决时间上下文、输入压缩或行为多样性问题:
• 变分自编码器 (VAE)(2 个 WBC):将高维输入(例如关节状态或关键点)压缩到潜空间,然后再传递给 MLP,从而规范学习并过滤噪声。
• 循环层(2 个 WBC):基于 LSTM 的记忆层提供隐时间上下文,减少对长输入历史记录的需求,并帮助控制器隐式推断加速度和动量等动态状态,从而实现更平滑的运动。
• 混合专家(2 个 WBC):一小组 MLP“专家”,每个专家专注于不同的运动模式(例如,行走与站立),并通过门控网络选择或混合输出。
• Transformer 或注意层(3 个 WBC):用于整合时间或多模态输入,使控制器能够动态地权衡过去的状态或关键特征。

尽管进行这些实验,但该领域尚未针对 WBC 达成任何深度专业化或精心设计的网络设计。大多数 WBC 仍然相对轻量级,优先考虑推理速度、鲁棒性和 PPO 训练稳定性,而非架构的新颖性。目前,训练方法(动作捕捉片段、师生流程、域随机化)等因素似乎比网络主干本身更能影响性能。话虽如此,随着 WBC 的功能性和鲁棒性不断提升,除了简单的 MLP 之外,新架构很可能会脱颖而出,并成为首选标准。

结语

人形 AI 仍处于早期阶段,但全身控制器(WBC)的形态已开始显现,其输入、训练和架构方面呈现出明显的趋势。然而,要就哪种方案“效果最佳”得出确切的结论仍然很困难:每个 WBC 都依赖于大量的调优、反复试验、随机种子以及针对特定机器人的适配。目前的比较结果提供的见解有限,通常既反映了实施工作,也反映了基础设计。真正理解哪些选择重要,哪些选择是偶然的,需要时间和集体实验。目前,真正的进展更有可能来自于对单个系统进行仔细的消融研究和系统性探索,而不是追求最先进的分数,从而逐渐揭示塑造下一代 WBC 的原理。

展望未来,一些重大问题可能会决定 WBC 的下一步发展方向。它们应该在多大程度上“观察”世界?它们应该继续作为纯粹的稳定器,还是开始处理诸如脚部放置和防撞等基本功能,以便更高级别的规划器可以专注于全局?多模态和灵活性也已成熟,可以取得进展:想象一下,一个控制器可以在类似操纵杆的导航、全身运动跟踪,甚至实现简单的长远目标之间流畅切换。这种能力几乎肯定会推动该领域超越当今主要基于 MLP 的网络。接下来是数据问题:像 AMASS 这样的大型动作捕捉数据集是否仍将占据主导地位?还是说,精心设计的合成训练数据也能同样出色,甚至更胜一筹?无论结果如何,这些问题的答案都将决定下一波人形机器人控制的发展方向。

参考文献

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐