最近在研究无人机,感觉无人机很有意思

发现两篇不错的论文,放在这里当做学习笔记

第一篇论文指导思路不错,但是代码未开源

第二篇论文代码开源,模型开源,重点记录第二篇论文

论文一

搜索全网““大脑”与“小脑”的完美结合:基于多模态大模型的无人机智能体AeroAgent”关于这个文章的介绍很多,北京航空航天大学智能无人机团队周尧明教授团队等研究人员

作者:

Haoran Zhao 1 , 3 , Fengxing Pan 1 , 3 , Huqiuyue Ping 2 , 3 , Yaoming Zhou 1
Beihang University, 2 Zhejiang University, 3 qingniaoAI

该论文实现了四个任务:野火搜索与救援基于视觉的着陆基础设施检查安全导航。这些任务不仅涵盖了无人机在工业应用中的典型场景,还充分测试了AeroAgent在复杂、动态环境中的表现。

具体表现

  • 环境感知:AeroAgent通过多模态传感器数据(如视觉、红外、激光雷达等)全面感知环境,识别障碍物和个体的位置。
  • 路径规划:AeroAgent能够根据环境信息生成最优的救援路径,避开障碍物,确保无人机的安全飞行。
  • 任务执行:AeroAgent能够高效执行救援任务,确保个体在最短时间内安全撤离危险区域。

论文二

搜索全网“北航团队实现「说句话就能飞」!UAV-FlowColosseo:语言交互无人机控制新突破,开放场景真机实测成功!”即可搜到很多相关介绍

  • 作者:Xiangyu Wang1, Donglin Yang1, Yue Liao2,3, Wenhao Zheng1, Bin Dai4, Wenjun Wu1,4, Hongsheng Li3, Si Liu1
  • 单位:1北京航空航天大学人工智能研究院,2新加坡国立大学,3MMLab,4北京航空航天大学杭州国际创新研究院
  • 论文标题:UAV-FlowColosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning
  • 论文链接:https://arxiv.org/pdf/2505.15725
  • 项目主页:https://prince687028.github.io/

核心能力

  1. 运动意图理解:理解并执行基本飞行行为(如起飞、平移、旋转等)。
  2. 空间上下文定位:将语言中的空间引用与视觉观察相结合,生成环境感知的轨迹。

指令类型

  1. 原始运动指令(Primitive Motion Commands):如起飞(takeoff)、平移(translation)、旋转(rotation)等,评估对基本运动指令的执行能力。
  2. 对象交互指令(Object-Interactive Commands):如靠近(approach)、环绕(orbit)、穿过(pass through)、悬停(hover)等,评估基于视觉感知的空间推理能力。

数据收集环境:在三个大学校园环境中收集数据,总面积达5.02平方公里,包含丰富的语义元素(如行人、车辆、植被、建筑等),为多样化的飞行行为提供了丰富的视觉上下文。

数据收集方式

  1. 飞行员操作:由经验丰富的无人机飞行员手动操作,使用DJI Mavic 3T RTK等商业级平台,配备4K相机和RTK GPS模块,确保高分辨率视频和厘米级轨迹精度。
  2. 指令引导:飞行员根据预定义的指令模板执行飞行任务,指令分为原始运动指令和对象交互指令。
  3. 多样化执行:每个指令从多个起始位置执行,增加行为多样性。

数据同步与对齐

  1. 视频与轨迹同步:通过时间戳将飞行日志与视频帧对齐,将全球GPS坐标转换为局部笛卡尔坐标系,并计算相对方向。
  2. 采样率:视频以5Hz的频率均匀采样,每个帧与对应的无人机状态配对。

语言指令标注

  1. 过滤与标注:专业标注团队对飞行视频进行审查,过滤掉模糊或不连贯的片段,并为剩余片段编写精确的语言指令。
  2. 语言多样化:使用大型语言模型(LLM)生成多样化的语言指令,创建固定命令集和开放词汇命令集。
  • 结论
    • UAV-Flow基准为研究如何通过模仿学习使无人机能够解释语言指令并执行精细动态动作提供了一个新的视角。
    • 通过真实世界的数据收集和仿真评估,证明了VLA模型在语言引导的无人机精细控制任务中的优越性,并展示了将这些模型部署到真实无人机上的可行性。

项目地址有视频

https://prince687028.github.io/UAV-Flow/

代码地址

https://github.com/buaa-colalab/UAV-Flow/tree/main/OpenVLA-UAV

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐