多模态大模型的新进展-空间超感知与预测性感知的尝试
多模态大模型的新进展-纽约大学和斯坦福大学提出的"空间超感知"范式通过四个递进阶段(语义感知、流式事件认知、隐式3D空间认知和预测性世界建模)突破现有框架限制。研究团队构建的VSI-SUPER基准测试显示,传统模型在长时空间回忆和持续空间计数任务中准确率极低。而基于预测性感知范式的新方法,通过预测下一帧特征、量化"意外度"和智能记忆管理,在120分钟视频任务
大模型就现在的情况而言,现在国外的Gpt4+,Gemini,国内豆包,千问,Yuan Flash,都很强。大家也习惯上认为 AI 能“看懂” 图片、“理解” 视频。但其实不是的,比如当我们要求AI记住两小时视频中异常物体的出现顺序,或跨多个房间统计目标物体总数时,模型就麻了。或者说你处理的问题一旦超出上下文,AI会完全的犯傻失忆。至今为止AI确实已经是优秀的生产力,但是说实话一旦调教不正确经常容易爆雷,然后人工去补锅补到吐血。总之不管是策划,美术还是程序,越到细节越需要人来处理。
我近期做游戏用AI经常性用的火大,昨天又被AI搞郁闷了。我不想和AI生气于是去论文网站去看看了未来有没有能搞定AI犯傻的情况的。然后找到了这篇论文
Cambrian-S: Towards Spatial Supersensing in Video
纽约大学和斯坦福大学联合团队的论文。提出的空间超感知(Spatial Supersensing) 范式,为解决这一痛点提供了思路。我相信这个思路最终会让大模型犯傻的概率低一点。
一、与传统模型的对比
我们平时接触的视频多模态模型,原理上是在做 “看图说话”—— 将视频拆分为稀疏帧,通过图像编码器提取特征,再结合语言模型生成答案,更多的是在理解文本,图像的识别是为了文本服务,再用文本生成最终结果。一旦我们把问题变为“隐藏 3D 世界在像素上的持续投影”,AI就完全没办法。现在这种帧级处理方式完全忽略了空间结构、时间关联性和动态演化,这是无法应对复杂的空间推理任务的原因之一。
研究团队提出的空间超感知,出发点是要让模型突破这一局限,具备从持续感官体验中构建、更新和预测 3D 世界隐式模型的能力。它包含四个递进阶段:
- 语义感知:识别物体、属性和关系(现有模型的核心能力);
- 流式事件认知:处理无界持续视频流,整合跨时间记忆;
- 隐式 3D 空间认知:推断视频背后的 3D 结构,理解物体位置与关系变化;
- 预测性世界建模:基于先验知识预测未来状态,用 “意外度”(预测误差)引导学习。
这四个阶段层层递进,最终目标是让 AI 像人类一样,不仅能 “看到” 画面,更能 “记住” 空间、“推断” 规律、“预测” 变化。
二、模型测试基准
为了验证现有模型的局限,团队构建了专门的VSI-SUPER 基准,它主要做两件事:
- VSR(长时空间回忆):在 10 分钟到 240 分钟的视频中插入异常物体(如泰迪熊),要求模型按出现顺序回忆其位置;
- VSC(持续空间计数):拼接多个房间的漫游视频,要求模型跨视角、跨场景累计目标物体总数。
测试结果其实我觉得不出意料(我没追过多模态原理,但是用的时候就隐隐感觉不对):论文里显示即便是拥有百万级上下文窗口的 Gemini-2.5-Flash,在 60 分钟视频的 VSR 任务上准确率仅 41.5%,VSC 任务更是低至 10.9%,超过 120 分钟直接超出上下文限制。
核心原因有两点:
- 被动处理无选择性:模型将所有帧视为同等重要,靠暴力扩展上下文长度应对长视频,既低效又易丢失关键信息;
- 缺乏空间建模能力:无法理解视频的 3D 本质,跨视角、跨场景时难以整合空间信息,计数和回忆任务自然无法完成。
为了进一步验证 “是否仅靠数据就能解决问题”,团队构建了VSI-590K 数据集—— 一个包含 59 万条空间导向 QA 对的大规模数据集,涵盖真实标注视频、模拟数据和伪标注 web 视频。基于此训练的Cambrian-S 模型,在传统空间推理基准 VSI-Bench 上实现了 30% 的绝对提升,超越所有开源和主流专有模型。
但 Cambrian-S 在 VSI-SUPER 基准上依然暴露了短板:10 分钟 VSR 准确率 38.3%,60 分钟骤降至 6.0%,120 分钟完全失效。这证明:仅靠数据缩放和模型扩容,无法突破现有范式的本质局限。
三、另一个方向的测试
被动处理行不通,于是尝试借鉴人类的认知方式 —— 我们的大脑会持续预测接下来的感官输入,对符合预期的信息 “忽略”,对超出预期的 “意外” 信息重点关注。团队基于这个原理提出的预测性感知(Predictive Sensing) 范式。
核心设计:三大关键组件
- Latent Frame Prediction(LFP)头:在模型中并行添加一个简单的两层 MLP,专门预测下一帧的潜态特征。训练时通过 MSE 和余弦距离优化预测误差,让模型学会捕捉视频的时空规律;
- 意外度(Surprise)量化:将 “预测特征与真实特征的余弦距离” 作为 “意外度” 指标 —— 距离越大,说明画面越超出预期(如异常物体出现、场景切换);
- 意外度驱动的智能机制:
-
- 记忆管理(针对 VSR):对低意外度帧进行压缩存储,高意外度帧优先保留,既节省内存,又确保关键信息不丢失;
- 事件分割(针对 VSC):当检测到高意外度帧(如进入新房间),自动触发场景分割,分片段计数后汇总,解决跨场景计数的 “遗忘” 问题。
实测效果:大幅超越主流基线
在 VSI-SUPER 基准上,预测性感知范式展现出碾压性优势:
- VSR 任务:120 分钟视频准确率达 40.0%,远超 Gemini-2.5-Flash 的 “超出上下文限制”;
- VSC 任务:120 分钟视频准确率 34.0%,预测计数与真实值呈线性相关,而 Gemini-2.5-Flash 的预测始终停留在小数值区间;
- 内存稳定性:处理 240 分钟视频时,GPU 内存占用保持稳定,彻底摆脱上下文长度的束缚。
四、多模态模型未来可能性
Cambrian-S 和预测性感知的研究,为多模态 AI 的发展指明了三个核心方向:
- 从 “语言中心” 到 “空间中心”:视频的核心价值在于其 3D 空间属性和动态演化,未来模型需要更注重空间结构的建模,而非单纯依赖文本辅助;
- 从 “被动处理” 到 “主动预测”:暴力扩展上下文长度不是长久之计,像人类一样 “预测 - 验证 - 更新” 的闭环,才是应对无界感官输入的关键;
- 从 “任务驱动” 到 “世界建模”:真正的多模态智能,需要构建一个能够持续学习、自我更新的内部世界模型,而非针对特定任务优化。
当然,这只是空间超感知的第一步。目前的预测性感知仍基于简单的 MLP 预测头,但是确实是个不错的开始。未来结合更强大的世界模型、强化学习等技术,有可能让 AI 在更长视频、更复杂场景中实现与人类相当的空间认知能力,也能解决工作上的很多复杂问题。
HF和Github直接搜索Cambrian-S就能搜到相关资料。
更多推荐
所有评论(0)