VSI bench介绍

文章标题：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces单位：纽约大学团队：李飞飞，Saining Xie文章提出了一个新的任务，就是给定一段视频，需要MLLM对该视频进行空间推理包括：空间中的物体的距离，物体的个数，物体的尺度大小等等文章结论证明显示的文字思维链不能提

Younai2021

49人浏览 · 2026-02-03 19:35:15

Younai2021 · 2026-02-03 19:35:15 发布

文章标题：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

单位：纽约大学

团队：李飞飞，Saining Xie

文章提出了一个新的任务，就是给定一段视频，需要MLLM对该视频进行空间推理

包括：空间中的物体的距离，物体的个数，物体的尺度大小等等

文章结论证明显示的文字思维链不能提升模型效果，而隐式的cognition map可以增强模型的空间尺度理解能力

Visual-Spatial Intelligence

Visual-Spatial Intelligence -> VSI，基于视觉的空间智能

空间推理包括两个部分：第一个是视角变换，第二个是空间关系推理

VSI bench

本文提出的VSI bench 包括了5000个问题对。包含288个真实室内场景（288条video）

数据集来源为Scannet，Scannet++和ARKitScenes

ARKitScenes 150 samples

ScanNet++ 50 samples

ScanNet 88 samples

数据集被划分为了3个不同的任务种类，包括了8种不同的任务

1，空间布局：包括相对方向，相对距离，物体计数，路径规划

2，空间测量：物体的大小，房间的大小，绝对距离

3，时空理解：需要知道物体出现的相对顺序

8种问题的模板：

数据集视频的时间在1分钟到5分钟不等，但对于大部分方法实际上只会使用抽取其中的32帧

评估方式

在VSI bench数据集中，问题的回答只有两种：选择题或者数字填空题：Multiple-Choice Answer (MCA) or Numerical Answer (NA) format

对于数字的回答，使用Mean Relative Accuracy (MRA)

VSI bench还有一个tiny的版本

a subset of 400 questions (50 per task)

benchmark：

实验

作者让Gemini-1.5 Pro通过文字的方式输出cognitive maps，来判断模型的mental representation。但这只是让模型显式的输出这个cognitive map，其实模型在推理时应该是在内部具备这个建模能力的。（思考：是否可以先显式的训练这部分的建模能力，然后再变成隐式的推理？）

实验证明通过prompt Gemini-1.5 Pro在回答问题之前先generate cognitive map可以提升模型的性能

然而，如下表所示，在7B的模型上加入了cognitive map反而会掉点

虽然论文说的是输入video，但实际上处理时还是截取的其中的32帧（或者其他数量的帧数）

对于某些任务，输入vision和不输入vision基本上没有区别，说明数据集存在一定的局限性

把问题放到视频的前面会掉点。

在问题后面再次加入一次video会涨点，这说明模型还是需要推理能力的，而不是把视频看完一遍就直接输出答案

This finding suggests that, despite its remarkable capabilities, a powerful MLLM like Gemini still has suboptimal reasoning processes for Video QA.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【langchain】AI应用开发框架

2048 AI社区

OpenCode：C++开发者的终端AI助手，让模型能力真正落地到代码实操

摘要： OpenCode是一款专为C++开发者设计的AI编码助手，深度融合模型能力与C++开发工具链，解决纯AI模型“纸上谈兵”的痛点。它通过自动调度Valgrind、CMake等工具，实现内存泄漏排查、并发安全修复等任务的闭环执行，无需开发者手动操作。内置C++开发约束（如智能指针、虚析构函数），支持云/本地模型切换保障隐私，终端原生设计贴合开发者习惯。OpenCode的核心价值是将AI建议转化