在人工智能领域顶会IJCAI 2025上,复旦大学团队的研究论文**《Boost Embodied AI Models with Robust Compression Boundary》成功斩获杰出论文奖(Distinguished Paper Award),实现了中国大陆团队近5年在人工智能顶会IJCAI杰出论文奖零的突破!**

在本次会议投稿的5404篇论文中,共有1042篇论文被录用,录用率仅为19.3%,其中只有3篇论文获得了杰出论文奖。

论文由复旦大学未来信息创新学院陈涛教授、余翀博士等共同完成,聚焦具身人工智能(Embodied AI)的部署难题,提出了一种通过增强压缩边界在提高模型计算效率的同时保证其准确性和鲁棒性的新方法。
图片

来源:全球科技情报服务平台AMiner
https://www.aminer.cn/pub/68b69c65396acac76c7a56e5/?f=fwh_am_v1

具身人工智能作为连接人工智能与物理世界的关键领域,已经广泛应用于自动驾驶、机器人操控等场景,但随着模型规模不断扩大,其部署效率和鲁棒性之间的矛盾愈发突出。

传统压缩技术虽然能够提高部署效率,但却容易在真实环境复杂条件的干扰下精度暴跌。此次复旦团队提出的鲁棒压缩边界增强方法(BRCB),巧妙地平衡了效率、准确性和鲁棒性

今天,我们就来深度解读这项研究,看看它如何为具身智能的落地应用铺设道路。

具身智能部署难题:效率与鲁棒性的双重挑战

一辆自动驾驶汽车在暴雨中行驶,即便摄像头被雨水模糊,决策系统仍需瞬间识别障碍物;一个机器人在昏暗的仓库搬运货物,动作必需要求精准无误……这些场景背后依赖具身智能模型持续感知环境,做出决策。
图片

真实世界场景下具身智能需要克服的挑战 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》

大规模神经网络的发展大大提升了具身智能的性能,提高了模型决策的能力,但代价是巨大的计算资源和能源消耗。动辄数亿参数的模型部署在计算资源有限、内存带宽狭窄的端侧设备上时,会导致响应延迟飙升,计算效率低下,这在安全敏感场景中是极为致命的。
图片

传统模型压缩技术将模型压缩过程与对抗性学习过程分开 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》

理论上,模型压缩技术(如剪枝、量化等)能够减少模型计算负担,但这些压缩方法将模型压缩的过程与对抗性学习过程分开,导致压缩后的模型对干扰数据微调后在原本良性数据上的准确率下降

更糟糕的是,**压缩模型被原有模型束缚,无法超越原有模型的鲁棒性边界。**如果原始模型在干扰下出错,压缩后的模型只会复制错误。

而具身智能平台(如车载AI系统)远比数据中心脆弱,如何让压缩后的模型**既保持轻量化,又能够兼顾稳定性呢?**这正是复旦大学团队要攻克的难关。

突破边界的BRCB算法:如何让模型又快又稳?

针对以上问题,复旦大学团队创新性地提出了鲁棒压缩边界增强方法(BRCB),主要在抗干扰机制突破鲁棒性边界两个层面进行创新。它不仅帮模型高效减重,而且强化了模型抗干扰能力,让压缩模型在鲁棒性上超越原始模型。
图片

增强鲁棒压缩边界(BRCB)工作流程 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》 ### 抗干扰机制(Against-Corruption Mechanism)

相较于传统模型压缩将干扰数据的训练视为不同数据分布上的适应问题,BRCB创新性地利用这些干扰样本优化模型的压缩过程。

首先,BRCB利用干扰样本对原始的密集模型进行微调校准,生成校准后的权重,通过比较校准前后的权重,将校准的权重分为了相似权重部分(与原始模型接近)、差异权重部分(与原始模型差异较大),并通过构建干扰敏感掩码标识对应参数位置。
图片

基于高效对比学习的鲁棒性模型压缩与评估流程 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》

在识别、过滤出干扰稳定权重和干扰敏感权重两个部分后,BRCB采用双路径压缩方式。干扰稳定权重即便压缩后也不易损失精度,因此采用传统压缩方法;而干扰敏感权重则用干扰样本进行专门训练,确保其在干扰样本上的稳定性。

最后,合并两条路径的压缩结合,即可得到一个轻量且稳定的模型。

突破鲁棒性边界(Push the Limitation of Robustness Boundary)

传统的模型压缩始终以原始密集模型作为黄金标准,这也带来压缩模型无法超越原始模型鲁棒性的界限。而BRCB通过**门控层(Gate Layer)**突破这一限制。

门控层位于关键目标层之前,在训练过程中,门控层随机掩码部分特征图,模拟真实干扰带来的异常数据扰动,迫使模型在训练的过程中学会处理特征异常。这也就意味着,模型本身不再盲目模仿原始的密集模型,而是在压缩过程中重新增强抗干扰能力。

BRCB打破了一味以原始模型为参照的思维定式,让压缩后的模型避免被干扰数据误导,从根本的原理层面提升了抗干扰能力。

通过这两大机制,BRCB算法实现了效率、准确性与鲁棒性三者的平衡:既通过精细化压缩降低了模型对硬件资源的需求,又在理想环境下保持了与原始模型相当的精度,同时还大幅提高了干扰场景下的稳定性,甚至超越了原始模型。

实验验证:从自动驾驶到机器人,压缩效果惊艳

为了验证BRCB的效果,研究团队围绕具身智能的两大核心应用场景——**自动驾驶和机器人,**设计了多组严谨的实验,用数据证明了BRCB算法的优势。

实验采用PyTorch框架,在A100 GPU集群上训练模型,所有的准确率数据采用INT8作为默认的数据类型。

在自动驾驶场景中,团队选择了BEVFormer、BEVFormer和BEVFusion作为实验目标模型,对比了BRCB与MiniViT等前沿压缩方法在无干扰状态、雨天、雪天和夜间的精确值数据,其中BEVFusion除了用于自动驾驶场景下的3D物体检测外,还测试了BEV地图分割的数据。
图片

在自动驾驶(3D物体检测)任务中,将BRCB与其他压缩方法比较 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》 ![图片](https://i-blog.csdnimg.cn/img_convert/769dc27769499203fa0568443d5f6d50.png)
在自动驾驶(BEV地图分割)任务中,将BRCB与其他压缩方法比较 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》

结果表明,在无干扰的干净场景下,**BRCB压缩后的模型几乎与原始模型持平;**而在干扰场景下,BRCB的表现更是一骑绝尘,不仅远超其他压缩方法,甚至超越了原始模型,证明其在抗干扰能力上的优越性。

在机器人应用场景中,团队以OpenVLA为测试对象,对比GPUSQ-ViT方法,评估模型在多个泛化任务上的能力,包括了视觉方面、运动方面、物理方面以及语义方面。下表的结果表明,BRCB依然能够稳定地提供比现有模型更高的精确度。
图片

机器人任务中BRCB与最先进压缩方法的比较 | 图片源自论文《Boost Embodied AI Models with Robust Compression Boundary》

除了精度和鲁棒性,团队还测试了模型的部署效率。在NVIDIA DRIVE AGX Orin自动驾驶平台上,BRCB压缩后的多款模型都实现了显著的加速:目标检测模型UniverseNet加速2.31倍,车道检测模型CondLaneNet加速2.55倍,分割模型Mask2Former加速1.97倍,深度估计模型StereoDNN加速1.66倍。

这些压缩后的模型在实际道路场景中,依然能准确识别车辆、车道线,精准分割道路元素,估算行驶距离。

结语:具身智能的轻量化未来

复旦团队的这项研究,不仅斩获了IJCAI 2025杰出论文奖这一荣誉,更从技术层面为具身AI的大规模落地扫清了关键障碍。

通过BRCB算法,团队首次实现了效率、准确性、鲁棒性的三角平衡:既解决了传统压缩技术导致的鲁棒性下降问题,又打破了压缩模型无法超越原始模型的固有认知,为具身模型的轻量化提供了全新范式。

从行业应用来看,这项技术的价值不言而喻。

在自动驾驶领域,BRCB能让嵌入式芯片轻松加载复杂模型,既保证车辆在恶劣天气和对抗攻击下的安全,又降低车载硬件的成本。

在机器人领域,压缩后的模型能在边缘设备上高效运行,让机器人在工厂、医疗、危险环境等场景中更灵活地应对未知情况。

未来,随着BRCB算法在更多具身模型上的适配,其应用场景还将进一步拓展,比如智能家居机器人、无人配送车、工业质检设备等,真正让高效、可靠的AI走进生活的方方面面。

(部分内容由AI辅助措辞)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐