TANGO:为拓扑目标采取局部度量控制实现可遍历性-觉察的导航
25年9月来自澳大利亚 Adelaide 大学的论文“TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals”。机器人视觉导航传统上依赖于全局一致的 3D 地图或学习控制器,但这计算成本高昂,且难以推广到各种环境中。本文提出了一种仅基于 RGB 的目标级拓扑导航流程,该流程无需 3
25年9月来自澳大利亚 Adelaide 大学的论文“TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals”。
机器人视觉导航传统上依赖于全局一致的 3D 地图或学习控制器,但这计算成本高昂,且难以推广到各种环境中。本文提出了一种仅基于 RGB 的目标级拓扑导航流程,该流程无需 3D 地图或预训练控制器即可实现零样本、长视域机器人导航。其方法将全局拓扑路径规划与局部度量轨迹控制相结合,使机器人能够在避开障碍物的同时导航至目标级子目标。使用单目深度和可遍历性估计持续预测局部轨迹,并结合在必要时回退到基线控制器的自动切换机制,解决了先前方法的关键局限性。该系统使用基础模型运行,确保开放集适用性,而无需特定域的微调。在模拟环境和实际测试中证明该方法的有效性,突出其稳健性和可部署性。
视觉导航是机器人技术中的一个基本挑战,对在现实环境中运行的自主智体具有重要意义。传统方法通常依赖于构建精确、全局一致的几何三维地图 [1]–[3],这需要大量计算,并且难以在不同环境中推广。另一方面,为在未曾见过的环境中导航而设计的方法 [4], [5] 可能无法有效利用先验知识,从而限制了它们的效率和适应性。
受人类导航能力的启发——无需详细的三维地图,就能通过推理先前观察的图像或物体来遍历环境——视觉拓扑导航已成为一种颇具前景的替代方案 [6]– [8]。近期研究主要集中在图像级拓扑地图 [6], [7],这类地图虽然简单易懂,但表征能力有限。它们通常缺乏语义丰富性,并且对视点变化敏感,从而限制了它们在动态和多样化环境中的适用性。
相比之下,目标级拓扑地图 [8] 具有诸多优势,包括直接开放集自然语言查询、语义可解释性 [9] 和视点不变的视觉识别 [10]。这些特性对于实现可无缝部署在不同环境、任务和机器人平台上的开放世界导航至关重要。然而,将目标级拓扑信息集成到导航流程中存在挑战,尤其是在将全局规划与局部运动控制相结合,同时确保避障和可穿越性方面。
导航的拓扑子目标(Sub-goal)
绝大多数基于视觉的导航方法依赖于 3D 地图 [2]–[4], [16]–[18],其中,无论是在“未见” [19]–[22] 环境中,还是在基于地图的“已见” [16], [23], [24] 环境中,都取得了显著进展。相比之下,目前已有一系列方法直接使用视觉拓扑子目标进行长视域导航,而无需 3D 地图。受类人导航能力的启发,SPTM [6] 展示一种基于学习的导航控制器,该控制器使用图像序列作为地图。该方向的最新研究在现实世界的训练和部署 [25]、语言的使用 [26]、适应不同具身 [7] 以及联合学习探索 [27] 方面取得创新。这些方法主要使用图像作为子目标,必须从不同的机器人姿态捕获图像才能从图像对中获得控制信号。这可以通过基于学习的方法 [6]、[16]、[26]、[28]–[30] 或视觉伺服 [31]–[39] 来实现。最近的方法如 PixNav [11] 和 RoboHop [8] 提出分别使用机器人当前观察中可见的像素和物体作为子目标,而不是使用图像子目标。为此,PixNav 在模拟中学习控制器,而 RoboHop 使用零样本“分段伺服”方法来实现物体子目标。
开放集、零样本、大模型增强导航
基于学习的导航技术在结构化环境下的自动驾驶 [45], [46]、越野户外环境 [25], [47] 和飞行器 [23], [48]–[50] 等不同应用领域取得了显著进展,这些领域包括:开放集、零样本、强化学习 [40]–[42] 和模仿学习 [43], [44]。随着大规模通用(基础)感知模型的不断进步,研究人员现在专注于利用这些模型的开放集特性和零样本适用性。例如,ZSON [51]、COW [52]、GOAT [53], [54] 和 VL-Maps [16],它们依赖于 CLIP [15] 的联合视觉-语言嵌入空间进行开放词汇导航。尽管这些方法能够用自然语言描述开放集目标,但它们大多依赖于基于学习的技术进行机器人控制。与使用基础模型类似,大语言模型 (LLM) 已被用于零样本或少样本导航,例如 NavGPT [55], [56]、MapGPT [57] 和 VisionGPT [58]。最近,多模态 LLM 也被用于基于视频(例如 NaVid [59] 和 MobilityVLA [60])和视觉标注(例如 PIVOT [61] 和 CoNVOI [62])的导航。虽然这些方法旨在直接控制机器人动作,但它们在基于机器人地图 [55] 定位、3D 空间理解 [61] 和较长的推理时间 [59], [60] 方面受到限制。
教学-重复与体验导航
大量导航文献涉及视觉教学-重复 (VT&R) 任务 [63]–[71]。这些方法通常不需要 3D 地图进行导航,因为它们隐式地利用“更窄”任务的固有假设,即仅使用基于图像的视觉伺服来重复教学过程。为了避免与障碍物发生碰撞,这种导航流水线会明确地估计局部的自由空间 [72],或者根据先前的地图信息估计可穿越性 [67]、[73],通常使用深度传感器 [67]、[72]。这种导航的更广义版可以称为机器人导航的体验式学习 [74]。通过从大规模的真实数据中学习,例如,ViNT — 一种导航的基础模型 [75],这种控制策略可以展示对可穿越性、可达性和探索目标的一般理解。虽然比教学-重复更强大,但这种方法的端到端学习范式限制了它们的可解释性,并引入了与控制相关的数据偏差,从而限制了它们的更广泛的适用性。
TANGO
本文提出一种纯 RGB、目标级、拓扑导航流程,用于零样本机器人控制,这与最近的学习控制器 [6]、[7]、[11] 进行比较。具体而言,提出一种独特的全局路径规划和局部运动规划的集成方法,其中机器人以拓扑规划的方式规划其运动,以朝着拓扑规划的目标级子目标移动。后者是通过最近的一项研究 RoboHop [8] 实现的,其全局路径规划器会根据机器人当前的观察结果生成目标级子目标成本掩码。虽然该子目标掩码可以引导机器人前进,但由于其纯拓扑特性,它无法考虑可遍历性或避障能力。通过提出的拓扑控制器解决这一限制,该控制器明确预测可遍历的图像片段,使用单目深度度量将它们投影到鸟瞰图 (BEV) 空间中,规划一条到达最远最小成本子目标的轨迹,并持续此过程直至达到长视域目标。
如图所示:本文提出一种拓扑导航流程,它独特地连接拓扑全局路径规划器和度量局部轨迹规划,无需 3D 地图或学习控制器。这使得其即使在建图运行中没有障碍物的情况下也能有效避开障碍物。
本文提出的方法旨在有效地整合机器人对拓扑连接物体子目标的理解,以及通过可遍历性感知的瞬时轨迹规划实现该子目标的能力。拓扑全局规划器不断更新子目标掩码,而度量局部规划器则使机器人能够沿着可遍历路径不断移动,最终达到更新后的子目标。
基于拓扑目标(Object)的建图与规划
将环境的拓扑地图定义为图 G = (N ,E),其中 N 和 E 分别表示节点和边的集合。G 中的每个节点 n_i 对应一个图像片段 M_i,该片段代表一个有意义的对象。边 e_ij ∈ E 连接图像片段,其定义为:a) 图像内边,使用 Delaunay 三角剖分连接同一图像 It 内的质心 M_i 和 M_j;或 b) 图像间边,通过数据关联连接不同图像之间匹配的相应片段。
建图:使用基础模型(例如 SAM [13])从图像序列 {It} 中提取分割掩码。这些最新基础模型的零样本能力尤为宝贵,因为它们能够构建不局限于预定义目标封闭世界假设的拓扑表示。此外,这些模型本身支持与更丰富的描述符和语言模型集成,从而实现更具表现力的场景理解。对于建图过程中的节点/片段跟踪,利用局部特征匹配,其性能优于原始 RoboHop [8] 中基于 DINOv2 的匹配。具体而言,提取 SuperPoint [76] 特征,并使用 LightGlue [77] 进行匹配,以识别图像对之间的像素级对应关系。这些匹配将根据像素在各自分割掩码中的隶属关系转换为片段级对应关系。
定位:在每一步中,机器人都会以先前估计的局部参考图像索引为中心,在地图图像的时间窗口内进行定位。给定候选地图图像,使用上文建图部分中描述的相同局部特征匹配过程,对机器人的当前图像进行成对匹配。这提供当前图像和地图图像之间片段级的对应关系。利用这些对应关系,用全局规划器获得每个查询片段的子目标成本,如下所述。
全局规划:通过利用地图中片段之间的连通性,计算局部参考地图片段与目标片段之间的路径长度。为了实现这一点,在源节点和目标节点之间分配边的权重:具体来说,图像间边(连接不同图像中的片段)的权重为 0(表示同一目标实例),而图像内边(连接同一图像中的片段)的权重为 1。然后,用 Dijkstra 算法,从每个局部查询片段开始,计算到地图中目标节点的加权最短路径。这将为机器人的当前观测生成一个子目标成本掩码,突出显示机器人为实现其长视界目标而应该接近的理想物体。
TANGO 的导航流程如图所示。感知:使用基础分割模型 (SAM) 对机器人的当前视图进行分割,并使用局部特征匹配 (LightGlue) 将各个片段定位到目标级拓扑地图中。每个片段根据其与最终目标片段的拓扑接近度分配一个成本,并选择最接近最终目标的片段来驱动控制器。控制:将最新深度估计与开放集文本查询功能 (CLIP) 相结合来计算 BEV 可遍历图,以识别可遍历的表面,例如“地板”或“地面”。这些深度和语义信息被整合以生成 BEV 成本图(黄色表示高成本,黑色表示低成本)。应用 Dijkstra 算法计算到达子目标片段的最短路径,从而提供避开障碍物的轨迹并生成用于机器人导航的偏航控制信号。这种感知-行动循环不断重复,直到机器人到达最终目标物体。
度量控制以达到目标(Object)子目标(Sub-goal)
根据全局规划器拓扑规划的目标级子目标,TANGO 生成局部度量运动规划,以导航至这些子目标。通过计算 BEV 可遍历性图,实现从拓扑子目标到度量子目标的转换。本文方法利用最先进的模型,将单视图深度估计与开放集文本查询功能相结合,从而能够基于目标语义细化可遍历区域。
度量 BEV 可遍历性:在每个时间步,使用基础模型(例如 SAM [13])将机器人的 RGB 图像转换为二进制片段掩码。利用 CLIP [78] 文本查询评估每个片段的可遍历性,并根据其“语义”(例如地板、地面或地毯)筛选出片段。如果分割图中的片段被评估为可遍历,则设置为 1;如果不可遍历,则设置为 0,从而形成二进制可遍历性掩码。这种开放集可查询滤波器能够细粒度地选择可遍历区域,并适应不同的实际场景。对于每个子目标节点片段 n_i,选择成本最低的图像片段 M_i 作为代表性子目标。一旦确定可遍历片段掩码和子目标片段,便会通过 Depth-Anything [14] 应用单目深度估计,将可遍历片段和子目标点投影到三维空间中,从而生成最终的度量 BEV 可遍历性图。最终的子目标点将被选为子目标片段中包含的最远投影点。
轨迹和运动规划:对于每个输入 RGB 图像帧,计算度量 BEV 可遍历性图并将其转换为用于规划的成本图。成本图是通过对可遍历掩码边应用距离变换形成的,然后用一个盒式滤波器进行平滑处理。在此代价地图中,使用 Dijkstra 算法确定到达局部 3D 子目标的最短路径,并沿着到达子目标的轨迹生成一系列可遍历的路点。然后,这些路点用于生成控制信号,使用一个 P-跟踪控制器控制机器人的偏航角,并保持线速度恒定,从而有效地导航至子目标。
自动切换控制:当度量可遍历性预测不可靠或不可用时,例如当机器人离墙壁太近或被障碍物阻挡时,局部控制器会自动切换到 RoboHop [8] 的全拓扑“分段伺服”方法。在没有可靠的可遍历区域情况下,该方法将每个子目标掩码的水平像素偏移转换为偏航速度 (θ),确保机器人在这些具有挑战性的场景中仍然能够有效导航。
数据集与评估
用 Habitat-Matterport 3D 数据集 (HM3D) [79] 来评估提出的方法。具体来说,用 InstanceImageNav (IIN) 挑战赛 [80] 的验证集,该数据集包含 36 个不同的环境。在每个环境中采样 3 个场景(每个场景都有不同的目标对象),以在 108 个场景中进行基准测试。对于每个场景,用模拟器的路径查找方法获取建图(教学)遍历,该遍历用于构建目标级拓扑图,并在推理过程中提供给所有用于生成子目标成本的方法。
评估控制器在给定场景中导航到目标对象的能力。报告平均成功率,如果机器人在距离目标位置 1 米 [81] 以内,最多走 500 步,则该场景被视为成功。通过改变轨迹的测地线长度,基于机器人的起点重复评估。 PixNav [11] 仅使用了两种较短的 episode 长度变型,而进一步引入完整 episode 长度作为更具挑战性的设置。分别将这些长度称为“简单”、“困难”和“完整”,它们与目标的起始距离分别为 1-3 米、3-5 米和 8-10 米。
基准
用以下基准来评估提出的方法的有效性。
-
真值目标掩码:考虑导航流程的两个关键变型,其中用真值信息进行感知和规划,以生成与机器人图像观测相对应的目标掩码。i) GT-Metric:用模拟器的语义实例掩码、深度和导航网格来查找从每个目标实例到目标对象的最短(测地线)路径。这可以精确地估计机器人当前视图中目标子目标成本的指标,从而成为控制器的理想目标掩码输入。 ii) GT-Topological:用模拟器的语义实例掩码创建目标级拓扑图,该图假设需要解决分割、匹配/关联和定位问题。然后,该目标级图用于计算全局路径长度,因此,这样获得的目标掩码缺乏对目标片段布局的几何理解,仅依赖于图像内和图像间的目标连通性。此设置有助于在假设需要解决感知问题的情况下测试规划和控制的作用。
-
Robohop:在 RoboHop 控制器,目标掩码信息以目标片段像素中心的形式使用,并按其路径长度加权。
-
像素引导导航 (PixNav):PixNav 是一种基于 Transformer 的模仿学习局部导航方法 [11],它使用一组对应于最终或中间导航目标点的目标像素。目标块最初作为掩码与相应的 RGB 图像一起输入模型,然后执行离散动作空间中的操作:停止、前进、左转、右转、向上看、向下看。在后续的每个步骤中,当前 RGB 图像和碰撞信号将与之前图像的历史记录以及初始目标掩码结合使用,以预测下一个动作。
PixNav 是一个带有可移动摄像头的离散控制器,而 RoboHop 和 TANGO 是带有固定摄像头的连续控制器。考虑到这些差异并注意到 PixNav 的预期设计,对 PixNav 控制器的评估设置为初始化拓扑全局规划器给出的可查看中间目标,其中当方法输出“完成”或其内存缓冲区已满时,目标会更新。
更多推荐
所有评论(0)