Nature子刊|浙大高飞团队连发两篇重磅!15Hz端侧大模型导航 + 空中灵巧手
值得注意的是,论文将“变形状态”和“飞行模型”统一纳入系统建模中,使机器人在抓取物体、受到外界干扰时,依然能够保持稳定飞行,这是后续复杂操作能够顺利完成的关键基础。无人机执行一些飞行巡航任务,已经很成熟了,航拍、测绘、巡检,几乎成了默认工具,在第一项工作之中,无人机甚至能够找到我们所需要的物体。不同于常见的体素地图或稠密点云,这里使用的是一种基于 多面体扩展 的方法:无人机在局部占据栅格中,以当前

「打通无人机感知与交互最后一步」
目录
复杂未知场景中,无人机仅靠预设地图难支撑自主飞行,必须学会在陌生场景中理解指令、寻找目标并做出决策。同时,若只能“看见”却无法“触达”,任务仍停留在感知层面。
最近,来自浙江大学高飞老师课题组的两项工作,恰好从这两个关键阶段切入:
-
一项是联合北京航空航天大学共同完成的研究,关注无人机如何在零样本条件下完成物体导航,解决“去哪儿、怎么找”的认知难题;
-
另一项则是被 Nature 子刊《Nature Communications》收录的突破性成果,进一步探索了无人机如何在真实环境中完成类人手抓取与交互,回答“到了之后能做什么”的操作难题。
把这两项工作放在一起看,可以更清楚地看到一条正在成形的研究路径:
无人机正在从“被动感知平台”,逐步走向具备任务理解与物理行动能力的智能体。
01 USS-Nav:Zero-Shot 无人机物体导航,第一次能稳定地跑在无人机端侧
让无人机在未知环境里飞行,本身已经不轻松;如果再加一句“帮我找个可以睡觉的地方”,事情就立刻复杂起来。
这不再是简单的避障或覆盖,而是一个典型的 Zero-Shot Object Navigation 问题:无人机既不知道环境结构,也没有针对目标训练过,却要理解语义、做决策、还能实时飞行。
过去几年,语义导航的研究进展很快。场景图、视觉语言模型、甚至大语言模型,都被陆续引入到导航系统中。但一个现实问题始终存在:这些方法大多跑在算力充足的地面机器人或服务器上。
对无人机来说,尺寸、重量、功耗的约束,使得“重模型 + 重表示”的方案很难真正落地。
这篇论文提出的 USS-Nav,正是从这个矛盾出发:
他们没有继续堆模型,而是重新设计了一种足够轻量、但又能承载语义推理的环境表示方式,让 LLM 只在“该出手的时候”出手。
他们想做的,是让 Zero-Shot 语义导航,第一次能稳定地跑在无人机端侧。

图1|这张图展示了 USS-Nav 在真实无人机平台上的整体工作方式。系统在飞行过程中,一边用极其稀疏的方式构建全局空间连通结构(线框形式),一边把检测到的语义目标逐步挂载到空间结构上,形成统一的“空间 + 语义”场景图。基于这种层级化表示,大语言模型不再参与底层规划,而是只在“区域级”做粗到细的决策,让语义推理在算力受限的无人机上也能实时运行
02 技术亮点
用多面体扩展,构建极稀疏的空间骨架
USS-Nav 的第一步,是构建一个全局空间连通图。
不同于常见的体素地图或稠密点云,这里使用的是一种基于 多面体扩展 的方法:无人机在局部占据栅格中,以当前位姿为起点,通过球面采样和射线检测,生成能够近似自由空间的多面体。
每一个多面体,都是一个“可以活动的空间单元”。
多面体之间,通过父子关系、空间重叠和可见性关系建立连接,逐步形成一张稀疏但连通的拓扑结构。
这种表示的优势非常直接:
-
节点数量少,更新代价低;
-
自带空间可达信息,适合全局规划;
-
可以在线增量更新,适配无人机连续飞行。
论文中明确指出,这一步是为了解决“无人机无法维护大规模稠密地图”的现实约束。

图2|这组子图从 (a) 到 (d) 展示了空间连通图的在线生成过程。系统从当前位置出发,通过球面采样和多面体边界扩展,逐步探索自由空间,并在每一步完成拓扑关系的更新。整个过程直接基于当前的局部占据栅格进行,不依赖全局稠密地图,为无人机提供了一种既轻量又稳定的空间骨架表示
图聚类代替分割,让“区域”自然长出来
有了空间骨架,下一步是让系统具备“区域级”的理解能力。
USS-Nav 并没有在三维空间中做复杂的房间分割,而是把问题转成了一个图上的社区发现问题:
-
多面体中心作为节点;
-
不同类型的连接赋予不同权重;
-
通过 Leiden 算法,在拓扑结构上自动形成区域。
更关键的是,这个区域划分是 增量式 的。
系统只在新生成节点附近做局部更新,既避免了全局重算,也保证了区域 ID 的稳定性。
最终得到的“区域”,既保留了空间连通性,又天然适合作为 LLM 的推理单位。
这一步,实际上为后续的语义决策打下了一个非常关键的结构基础。
LLM 只做粗决策,系统才能跑得起来
在 USS-Nav 中,大语言模型的角色被刻意“收紧”了。
系统会把当前区域、访问历史、区域内的语义信息,序列化成结构化描述,交给 LLM。
LLM 的任务只有一个:在多个区域中,选出最值得继续探索的目标区域。
一旦区域确定,系统立刻切换回传统算法:
-
在该区域内生成前沿点
-
基于信息增益和路径代价,求解最优访问顺序
-
执行飞行与避障
-
如果语义信息不足,系统甚至会自动退化为纯几何覆盖策略
这种“语义在上、几何在下”的分工,使得整个系统在 Jetson Orin NX 上,仍然可以保持 15 Hz 的在线更新频率。
这也是 USS-Nav 能够真正部署到无人机上的关键原因。

图3|这张图展示了语义对象与空间结构的关联过程。系统利用开放词汇目标分割模型检测环境中的物体,并结合几何一致性与语义相似性判断,将这些对象稳定地绑定到对应的空间节点上。左图是仿真环境中的真实标注,右图是系统在线处理后的结果,可以看到语义信息已经被自然地融入场景图之中
03 实验与表现
在仿真环境中,作者构建了一个大尺度、多房间的无人机场景,并设计了从单区域搜索到跨区域长航程的多种任务。
结果显示:
在简单任务中,是否使用层级语义决策,差别并不明显;
但在长路径、多区域的复杂任务中,没有语义引导的系统,会大量浪费时间在无关区域。

图4|图 (a) 展示了基于全局覆盖掩码的前沿点生成方式:已经充分探索过的区域会被标记为“已访问”,从而避免重复搜索。在图 (b) 中,可以看到系统先由大语言模型在区域层面做出全局选择,再在目标区域内通过路径优化算法完成具体的局部规划。这种“语义选区域、算法走路径”的分工,是 USS-Nav 能够高效运行的关键
引入 USS-Nav 后,系统能够明显减少无效探索。
在复杂任务中,SPL 相比基线方法 提升了 146.61%。

图5|左侧展示的是高保真仿真环境的整体布局,以及不同任务的起点和目标位置。右侧则记录了一次长航程任务的执行过程:随着无人机飞行,场景图被持续构建,系统在不同时间点进行区域级推理与层级决策。在最后一个时间点,可以看到系统成功聚合语义点云并完成目标识别,任务顺利结束
更有说服力的是平台对比:
当许多方法依赖桌面级 GPU、离线处理或低频更新时,USS-Nav 在 Orin NX 端侧实现了 15 Hz 的实时运行,并完成了真实环境飞行实验。

图6|这张表从平台类型、是否支持语义推理、更新频率等多个维度,对比了现有代表性方法。可以看到,许多方法依赖桌面级 GPU 或离线处理,而 USS-Nav 能在边缘算力平台上保持高频在线更新。这也进一步说明,该方法并非追求更复杂的模型,而是通过合理的表示与决策分工,实现了真正可部署的语义导航系统
从结果来看,这套系统并不是“更激进”,而是更节制地使用语义能力。
04 找到目标之后,任务并没有结束
在第一项工作中,我们看到,无人机已经能够在没有见过目标、没有先验地图的情况下,根据语言指令在环境中自主搜索并定位目标物体。
这一步解决的是一个基础但关键的问题:无人机知道自己要找什么、往哪儿飞。
但如果把视角拉回真实任务场景,会发现事情并不会在“找到目标”这一刻结束。
在救援、物流、辅助服务等应用中,找到目标往往只是开始,接下来还需要接触、抓取、搬运,甚至与人发生直接的物理交互。
也正是在这个意义上,第二项工作顺理成章地接过了“导航之后”的问题:
当无人机已经具备感知与定位能力,它是否还能进一步进入环境,真正参与其中?
05 为什么“会飞”还不够?
无人机执行一些飞行巡航任务,已经很成熟了,航拍、测绘、巡检,几乎成了默认工具,在第一项工作之中,无人机甚至能够找到我们所需要的物体。但一旦任务从“看一看”变成“动一动”,问题就来了。
比如:在空中抓住一个物体、在树枝上停稳、帮人递东西,甚至是与人发生物理交互。现有飞行机器人要么体型庞大、结构复杂,要么只能完成非常受限的抓取动作,离真正的“可用”还差一截。
核心难点并不只在抓取本身,而在飞行与操作之间的强耦合:末端执行器一动,飞行姿态就乱;为了稳定,又不得不牺牲灵活性。这种矛盾,长期限制了空中操作机器人的落地。
而在接下来的这篇工作:Hand-like autonomous flying robot for airborne grasping and interaction之中,高飞团队给出了一个不太一样的思路:干脆从“手”本身重新设计飞行机器人。
他们提出了一种类人手结构的自主飞行机器人,把飞行、抓取和交互,真正融合成一个整体系统。
06 技术亮点
无人机携带类人手结构:不是“多一只手”,而是换一种设计逻辑
这项工作的第一个亮点,在于抓取结构与飞行平台的一体化设计。
传统做法是“飞行器 + 机械手”的拼装,而这里则是从一开始就把抓取当作飞行系统的一部分来设计。
这样的好处是,抓取时产生的力和运动不会剧烈扰乱飞行姿态,让操作动作变得更自然、更稳定。

图7|从结构层面解释 HI-ARM 为什么“像手一样工作”。作者首先回顾了人手的生物结构特征,例如肌腱驱动、多自由度关节和开放式抓取方式,然后对应展示了 HI-ARM 的机械设计。通过“展开状态”和“紧凑状态”两种形态对比,可以看到机器人在飞行与操作之间的自适应变化。配合自恢复的肌腱驱动机制和可变形结构,HI-ARM 能够根据物体形状自动调整抓取方式,而不是依赖精确对准
自主控制框架:让机器人知道“什么时候该怎么动”
光有结构还不够,关键在于怎么控制。
论文提出了一套包含任务规划和多层级控制的自主框架,让机器人能够根据当前任务阶段,调整飞行和操作方式。
换句话说,它不只是“会抓”,而是知道在接近目标、接触目标和完成操作时,动作应该有什么区别。

图8| HI-ARM 的硬件与软件整体架构。图中展示的是飞行平台与类人手结构的硬件组成,中间则是支撑这些动作的控制系统,包括任务规划、运动规划、自适应控制、状态估计和执行模块。值得注意的是,论文将“变形状态”和“飞行模型”统一纳入系统建模中,使机器人在抓取物体、受到外界干扰时,依然能够保持稳定飞行,这是后续复杂操作能够顺利完成的关键基础
面向真实场景的设计,而不是实验室特例
第三个亮点体现在整体设计目标上。
论文中的系统并不是只针对单一抓取任务优化,而是面向多种真实场景,包括停栖、狭窄空间飞行、物体运输以及人与机器人的交互。
这种设计思路,使得系统具备更强的通用性,而不是只能在特定条件下工作。

图9| 图中展示了 HI-ARM 在野外环境中的应用示例。包括在不同环境中的停栖、通过变形穿越狭窄空间,以及跨越河流运输物品。这些场景并未经过精心布置,而是更贴近真实使用条件,进一步验证了系统在复杂环境中的适应性
07 实验与表现
在实验部分,作者没有把重点放在单一指标的提升上,而是通过多种场景测试,展示系统在真实环境中的整体表现。
一个明显的趋势是:
飞行与操作不再互相牵制。在执行抓取和停栖任务时,机器人能够保持稳定姿态,而不是频繁调整或中断动作。

图10| 图中展示了 HI-ARM 在停栖和开门任务中的表现。通过对比人类抓扶手、抓树干的动作,作者展示了机器人在树干上的稳定停栖过程,并给出了对应的电机速度和功率变化。在开门实验中,系统不仅完成了动作,还测量了外部作用力与位置变化,说明 HI-ARM 可以在与环境发生较强接触时,依然保持可控和安全的操作行为
在狭窄空间和复杂地形中,系统依然能够完成连续操作,这一点相比传统外挂式方案尤为明显。后者往往需要更大的空间和更谨慎的动作规划。

图11|图中展示了 HI-ARM 在连续多任务中的稳定性。机器人在一次飞行过程中,连续完成抓取、运输、递送、投放和停栖等多种任务,而不是每个动作都重新规划。对应的轨迹参考、跟踪误差和外力估计结果表明,系统在多任务切换过程中依然保持良好的控制精度,这是单一任务展示难以体现的能力
在负载运输和人机协作相关实验中,论文展示了机器人在实际户外环境下的稳定运行能力。整体来看,这些实验强调的不是“单次成功”,而是动作的连续性、平滑性以及可重复性,这也是工程落地中更关键的指标。

图12|通过人机协同操作设备,操作者可以远程控制 HI-ARM 完成抓取任务,同时系统记录了位置跟踪、外力估计和推力变化等关键状态。实验不仅展示了量化性能指标,还包括行动不便者远程取物、帮助人类从高处取回物品等应用示例,体现了该系统在辅助服务领域的潜在价值
08 总结与延伸
把这两项工作放在一起看,可以看到一个并不激进、却非常清晰的研究方向。
第一项工作解决的是认知层面的问题:
在未知环境中,无人机如何理解任务、定位目标,并做出合理的导航决策。第二项工作则进一步推进到物理层面:
当目标就在眼前,无人机是否具备足够的结构设计和控制能力,去安全、稳定地完成实际操作。它们并不是同一个系统的两个模块,而是从不同角度回答了同一个更大的问题:
无人机如何从“会飞、会看”,逐步进化为“能理解、能行动”的智能体?
从零样本导航到空中抓取,从语义理解到物理交互,这条路线并不追求一步到位的“通用智能”,而是通过一项项扎实的能力建设,逐步拓展无人机在真实世界中的行动边界。
或许正是在这样的积累之下,我们才有理由期待:
未来的无人机,不只是空中的传感器,而是真正能够参与任务、协助人类的空中机器人。
REF
论文标题:Hand-like autonomous flying robot for airborne grasping and interaction
论文链接:https://www.nature.com/articles/s41467-026-68967-3
论文标题:USS-Nav: Unified Spatio-Semantic Scene Graph for Lightweight UAV Zero-Shot Object Navigation
论文链接:https://arxiv.org/pdf/2602.00708
更多推荐


所有评论(0)