写在前面:如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent

论文简介 🍀

  • 📖 题目:Small Vision-Language Models are Smart Compressors for Long Video Understanding
  • 📅 来源:Arxiv
  • 🏫 单位:1、Meta AI;2、King Abdullah University of Science and Technology (KAUST)
  • 🌍 主页:https://arxiv.org/pdf/2604.08120
  • 💻 代码:https://feielysia.github.io/tempo-page
  • ✒️ 摘要:将多模态大语言模型适配到长达数小时的视频理解任务上,严重受限于上下文窗口的限制。密集的视觉流会迅速耗尽输入 token 预算,并加剧“中间遗忘”现象。现有效率启发式方法,如稀疏采样或与查询无关的均匀池化,会盲目牺牲保真度。它们经常丢弃短暂但具有决定性的时刻,模糊细粒度证据,并将表征带宽浪费在无关背景上。论文提出了 Tempo,这是一种面向下游理解任务、能够压缩长视频的高效、查询感知框架。Tempo 利用一个小型视觉-语言模型作为局部时序压缩器。它将视觉 token 压缩表述为一个早期跨模态蒸馏过程,在一次前向传播中生成紧凑且与意图对齐的视频表征。为了在不破坏因果性的前提下满足严格的推理预算,论文引入了自适应 token 分配(Adaptive Token Allocation,ATA)。ATA 利用该小型视觉-语言模型固有的零样本相关性先验以及经验上观察到的语义前置特性,作为一个无需训练、时间复杂度为 O ( 1 ) O(1) O(1)的动态路由器。它为与查询关键相关的片段分配密集带宽,同时将冗余内容压缩为最小的时间锚点,以维持全局叙事。大量实验表明,这一紧凑的 6B 架构在强动态压缩率(每帧 0.5–16 个 token)下实现了当前最优性能。在极长视频基准 LVBench(4101 秒)上,Tempo 在严格的 8K 视觉 token 预算下取得了 52.3 分,超过了 GPT-4o 和 Gemini 1.5 Pro 等专有基线。将规模扩展到 2048 帧后,性能进一步提升至 53.7。更关键的是,经验分析表明,Tempo 经常能够将长达数小时的视频压缩到远低于理论计算上限的 token 数量,这证明真正的长视频理解依赖于由意图驱动的效率,而不是贪婪地填充上下文窗口。

在这里插入图片描述
图 1 Tempo 通过查询感知的自适应 token 分配(ATA)实现了当前最优的长视频理解性能。(a) 动机:与查询无关的方法要么错过短暂时刻(稀疏采样),要么模糊细节(均匀池化)。相反,论文利用一个小型视觉-语言模型作为“智能压缩器”,用于查询感知的跨模态蒸馏。(b) 机制:ATA 为相关片段动态分配高带宽(每帧 16 个 token)以保留细粒度细节,同时将冗余上下文压缩为最小时间锚点(约每帧 0.5 个 token),以维持因果性。© 结果:在 LVBench 上取得领先性能。Tempo-6B 在极端压缩率下,即每帧 4 或 6 个 token,仍实现了更优准确率,并且仅使用一小部分上下文预算就超过了开源模型和专有基线。

  

一、论文阅读

1.1 引言(Introduction)

  多模态大语言模型的发展显著改变了视觉理解,使系统能够对图像和短视频片段执行复杂的语义分析。然而,将这些能力扩展到长达数小时的视频仍然具有挑战性。核心困难在于,长视频庞大且连续的视觉流,与下游大语言模型严格受限的上下文窗口之间存在结构性失配。随着时间长度增加,原始视觉 token 会迅速压垮输入容量,严重稀释注意力机制,并导致模型无法检索埋藏在长上下文中的稀疏证据。

  为了将长视频理解适配到有限上下文中,现有方法通常不得不做出两种折中之一。一种常见方法是稀疏帧采样,它降低了计算量,但不可避免地会有跳过回答特定查询所需的短暂却关键时刻的风险。另一类方法保留更多帧,但采用与查询无关的压缩,例如均匀时空池化或 token 合并。由于在压缩时并不知道用户将会问什么,这些启发式方法往往会模糊查询关键片段中的细粒度证据,同时将表征带宽浪费在无关背景上。从本质上说,大多数现有流水线在与语言模型交互之前就先减少视觉证据,这阻止了带宽对查询关键片段的动态分配。即使是开创性的查询感知方法,也依赖彼此分离的辅助特征匹配模块,从而将路由机制与端到端多模态流水线解耦。

  论文提出了 Tempo,这是一种面向长视频理解的高效查询感知框架,能够原生学习如何为下游文本生成任务压缩视频。正如其名称所暗示的那样,Tempo 充当一个智能时间压缩器,动态分配视频的“节奏”:它为与查询相关的语义节拍分配高 token 带宽,同时快速略过冗余上下文。Tempo 并不将视觉压缩视为纯视觉的、与查询无关的操作,而是将这一压缩过程表述为一个早期的跨模态语义蒸馏过程。具体而言,Tempo 利用一个小型视觉-语言模型作为局部压缩器,并将其与一个大语言模型无缝连接,以进行全局理解和响应生成。通过将用户查询前置到小型视觉-语言模型的输入中,Tempo 执行一次初步的跨模态蒸馏前向传播,生成与用户意图对齐的紧凑视频记忆 token,并使用标准自回归目标进行端到端训练。

  一个实际挑战是在推理时施加严格的 token 预算而不牺牲细粒度证据或全局因果结构,例如在 8K 视觉 token 预算下表示一个包含 1024 帧的视频。为此,论文提出了自适应 token 分配(ATA),这是一种无需训练的推理策略,由 Tempo 架构的两个关键经验性质所引导。

  • 第一,零样本相关性先验与时间锚点(Zero-shot relevance prior and temporal anchors)。得益于基础模型大规模多模态预训练,局部压缩器表现出一种无需辅助监督即可估计查询与视频相关性的零样本能力。ATA 利用这一先验按片段分配预算,从而实现激进的动态压缩范围,即每帧 0.5 到 16 个 token。关键在于,ATA 并不采用会破坏因果性的硬剪枝,而是为相关片段保留密集的表征带宽,同时将冗余上下文压缩为最少的时间锚点,即 4 个 token,以维持全局叙事。
  • 第二,由因果注意力驱动的语义前置(Semantic front-loading driven by causal attention)。论文的消融实验从经验上揭示,在小型视觉-语言模型的因果注意力机制下,显著视觉语义会自然集中在最早的视频记忆 token 中。因此,简单的头部截断就能有效分离高价值证据,以零额外开销避免有损的空间模糊。

  总之,论文的贡献如下。

  • Tempo 是一个面向长视频理解的端到端、查询感知压缩框架。它通过统一基于小型视觉-语言模型的局部压缩器和基于大语言模型的全局解码器,直接解决上下文窗口瓶颈,并在一次前向传播中执行查询条件化的跨模态蒸馏。
  • ATA 是一种无需训练、具备预算感知能力的推理策略,它利用局部压缩器固有的零样本相关性先验和语义前置特性,动态决定最优 token 分配,在为查询关键时刻保留细粒度细节的同时,将冗余压缩为最小时间锚点,以维持全局因果结构。
  • Scaling Behaviors 论文还分析了缩放行为,揭示最优资源分配会随任务和视频时长而变化。对于标准长视频任务,例如 Video-MME Long 的 30 到 60 分钟视频,4K 视觉 token 预算是一个“甜点”;但对于极长视频,例如超过 1 小时的 LVBench,过于严格的预算最终会限制性能。扩展到更大容量能够解锁新的性能峰值。值得注意的是,实践中论文观察到 Tempo 主要依据语义必要性来分配 token,常常将数小时长的视频压缩到远低于可用 token 预算。
  • Leading Performances 最后,在性能方面,尽管 Tempo 只是一个紧凑的 6B 模型,它仍在多个长视频基准上建立了新的最优结果。在具有挑战性的 LVBench 上,Tempo 在 8K 预算下取得了 52.3 分,超过了专有基线,如 GPT-4o 和 Gemini 1.5 Pro,以及开源对手,如 VideoChat-Flash。将规模扩展到 2048 帧并采用 12K 预算后,性能进一步提升至 53.7,展示了论文所提出的 Tempo 在数小时长视频理解上的稳健能力。

  

1.2 方法(Tempo)

1.2.1 概述(Overview)

在这里插入图片描述

图 2 Tempo 框架概览。论文的统一架构将长视频理解表述为一个端到端、查询感知的压缩过程。局部压缩器(左)。对于每个片段,一个小型视觉-语言模型作为语义时间压缩器。在因果注意力下,可学习的记忆 token M M M天然地蒸馏前面的视觉 token X i X_i Xi和用户查询 Q Q Q。仅推理旁路(中)。在一次前向传播过程中,自适应 token 分配(ATA)控制器截取隐藏状态 h i r e l h_i^{rel} hirel来计算零样本相关性分数 s i s_i si。这使得 O ( 1 ) O(1) O(1)的动态头部截断成为可能,从而为查询关键片段分配密集带宽,同时将冗余压缩为最小时间锚点,以严格满足全局预算 B max ⁡ B_{\max} Bmax。全局解码器(右)。压缩后的记忆 token 通过显式时间标签(例如<t=2.0s>)被组装成一个高度稀疏、具有时间感知能力的序列。全局大语言模型对这一浓缩的多模态上下文进行综合,以生成最终响应。

  论文针对长视频多模态大语言模型中的根本瓶颈:下游大语言模型只能关注有限数量的视觉 token,而长达数小时的视频会产生庞大且连续的视觉流。Tempo 通过将视觉 token 缩减转化为一个早期跨模态蒸馏问题来解决这种失配。

  问题设定(Problem Setup.)。给定一个长视频 V V V和一个用户查询 Q Q Q,论文将 V V V均匀划分为 N N N个时间片段,记为 S = S 1 , … , S N S={S_1,\ldots,S_N} S=S1,,SN。目标是将每个 S i S_i Si转换为一组紧凑的、由查询条件化的视频记忆 token,并使总序列受全局推理预算 B max ⁡ B_{\max} Bmax约束,从而使下游大语言模型能够高效处理整个视频并生成最终答案。

  架构(Architecture.)。Tempo 由一个两级生成层次结构组成(如图2所示):(1)一个基于小型视觉-语言模型的局部压缩器 C ϕ \mathcal{C}_{\phi} Cϕ;(2)一个基于大语言模型的全局解码器 D θ D_{\theta} Dθ。具体而言,小型视觉-语言模型的原生视觉编码器将片段 S i S_i Si映射为稠密视觉 token X i \bold{X}_i Xi。随后,其因果注意力执行查询条件化蒸馏,将 X i \bold{X}_i Xi与查询 Q Q Q整合进可学习的记忆 token M \bold{M} M中。这会产生一个固定容量的表示 H i \bold{H}_i Hi,其 token 数严格为 k max ⁡ k_{\max} kmax。一个线性投影器将 H i \bold{H}_i Hi映射到大语言模型的嵌入空间中,得到 H ~ i \tilde{\bold{H}}_i H~i。最后,全局大语言模型 D θ \mathcal{D}_{\theta} Dθ将所有记忆 token { H ~ i } i = 1 N \{\tilde{\bold{H}}_i\}_{i=1}^{N} {H~i}i=1N Q Q Q一同作为输入,以自回归方式解码答案。

  训练与推理(Training vs. Inference.)。Tempo 在训练时采用固定的每片段容量 k max ⁡ k_{\max} kmax,以学习一个强大的查询感知局部压缩器 C ϕ \mathcal{C}_{\phi} Cϕ。在推理时,论文额外施加全局预算 B max ⁡ B_{\max} Bmax。因此,论文引入 ATA,这是一种无需训练的策略,它利用从同一次小型视觉-语言模型前向传播中提取出的零样本相关性先验来分配每个片段的预算 k i ∈ [ k min ⁡ , k max ⁡ ] k_i\in[k_{\min},k_{\max}] ki[kmin,kmax],随后执行常数时间的头部截断。

  

1.2.2 查询感知视觉压缩(Query-Aware Visual Compression)

  论文将片段压缩表述为一个由查询驱动的序列到序列变换。一个显式信息瓶颈迫使 C ϕ C_{\phi} Cϕ丢弃视觉冗余,并蒸馏与用户意图相关的语义证据。

  小型视觉-语言模型输入构造(SVLM Input Construction.)。对于每个片段 S i S_i Si,小型视觉-语言模型构造一个单一的因果序列,其中包括:(1)系统提示;(2)视觉 token X i X_i Xi,由其原生视觉编码器提取;(3)用户查询 Q Q Q;(4)可学习的记忆 token M \bold{M} M。将 M \bold{M} M放在最后至关重要:在因果注意力下,每个记忆 token 天然地会关注之前所有的视觉和文本上下文。这使小型视觉-语言模型能够将与查询对齐的证据蒸馏到 M \bold{M} M中。提取其最后一层隐藏状态即可得到压缩表示 H i ∈ R k max ⁡ × d s \bold{H}_i\in\mathbb{R}^{k_{\max}\times d_s} HiRkmax×ds

  序列组装与时间定位(Sequence Assembly & Temporal Grounding.)。为了在整个视频范围内保留时间身份和因果顺序,论文在组装全局上下文时,为每个片段前置一个显式文本时间戳,例如<t=2.0s>。在实践中,这些时间标签显著增强了下游全局大语言模型中的长程归因稳定性,即证据来自何处。

  端到端学习(End-to-End Learning.)。设真实答案为 A = { a t } t = 1 T A=\{a_t\}_{t=1}^{T} A={at}t=1T。全局 D θ \mathcal{D}_{\theta} Dθ按时间顺序接收所有投影后的片段记忆 { H ~ i } i = 1 N \{\tilde{\bold{H}}_i\}_{i=1}^{N} {H~i}i=1N,并通过标准自回归下一个 token 预测进行优化:

L A R ( θ , ϕ ) = − ∑ t = 1 T log ⁡ p θ ( a t ∣ a < t , Q , { H ~ i } i = 1 N ) ( 1 ) \mathcal{L}_{AR}(\theta,\phi)=-\sum_{t=1}^{T}\log p_{\theta}\left(a_t\mid a_{<t},Q,\{{\tilde{\bold{H}}_i}\}_{i=1}^{N}\right) \quad(1) LAR(θ,ϕ)=t=1Tlogpθ(ata<t,Q,{H~i}i=1N)(1)

  关键的是,论文在训练期间不施加辅助压缩损失、路由网络或启发式 token 丢弃正则项。固定容量的 k max ⁡ k_{\max} kmax个记忆 token 充当了一个硬结构瓶颈。从 L A R \mathcal{L}_{AR} LAR反向传播回来的梯度会自然推动压缩器 C ϕ C_{\phi} Cϕ丢弃与查询无关的背景,并将最具预测性的视觉证据压缩进这一受限空间中。

  

1.2.3 零样本相关性先验(Zero-Shot Relevance Prior)

  驱动 Tempo 的一个核心洞见是,现代多模态基础模型天然具备稳健的零样本能力,能够评估视觉序列与文本查询之间的语义对齐。论文利用这一基础先验来提取一个高精度的相关性信号,而无需引入或训练任何辅助路由模块。

  基于 logit 的相关性分数(Logit-Based Relevance Score.)。为了在推理期间显式激发这一先验,论文对训练系统提示做了轻微扩展。在标准压缩指令之后,追加了一个严格的二元指令:“现在,在压缩之前,严格回答‘Yes’或‘No’:这个片段是否与查询相关?”设 h i r e l ∈ R d s \bold{h}_i^{rel}\in\mathbb{R}^{d_s} hirelRds为紧邻模型输出该二元回答之前的最终隐藏状态。利用小型视觉-语言模型冻结的语言建模头中对应词表 token Yes 的权重 w y e s \bold{w}_{yes} wyes和 No 的权重 w n o \bold{w}_{no} wno,论文通过 logit 差计算连续相关性概率 s i s_i si

s i = σ ( ( w y e s − w n o ) ⊤ h i r e l ) ∈ ( 0 , 1 ) , ( 2 ) s_i=\sigma\left((\bold{w}_{yes}-\bold{w}_{no})^{\top}\bold{h}_i^{rel}\right)\in(0,1),\quad(2) si=σ((wyeswno)hirel)(0,1)(2)

  其中 σ ( ⋅ ) \sigma(\cdot) σ()为 Sigmoid 函数。这个 O ( 1 ) O(1) O(1)投影避免了自回归解码开销,同时产生了高度稳定的排序信号。

  单次前向设计(Single-Pass Design.)。分数 s i s_i si和压缩记忆 token H i \bold{H}_i Hi C ϕ \mathcal{C}_{\phi} Cϕ的一次前向传播中同时提取。正如图 2 中“仅推理旁路”所示,论文只需截取隐藏状态 h i r e l \bold{h}_i^{rel} hirel来计算零样本分数,然后无缝继续前向传播以提取 H i \bold{H}_i Hi。这种架构上的简洁性保证了相关性路由信号和压缩表示都严格建立在完全相同的多模态上下文之上,从而以几乎为零的延迟实现自适应评估。

  

1.2.4 自适应 token 分配(Adaptive Token Allocation,ATA)

在这里插入图片描述

  在推理时,提供给全局大语言模型的总视觉上下文必须严格满足一个有界容量 B max ⁡ B_{\max} Bmax。如图 2 所示,ATA 控制器将零样本分数 { s i } \{s_i\} {si}转换为动态的每片段 token 预算 k i k_i ki,并通过零开销的头部截断执行物理压缩。

  阶段 1:对比式线性分配(Stage 1: Contrastive Linear Allocation.)。为了保证整个视频序列中的因果连续性,论文为每个片段都保留一个最小时间锚点,而不论其相关性如何。首先通过 Min-Max 缩放对原始分数进行归一化: s ^ i = s i − min ⁡ ( s ) max ⁡ ( s ) − min ⁡ ( s ) + ϵ \hat{s}_i=\frac{s_i-\min(s)}{\max(s)-\min(s)+\epsilon} s^i=max(s)min(s)+ϵsimin(s)。为了最大化查询关键事件与无关背景之间的对比,论文将这些归一化分数线性映射到一个目标容量:

k i i d e a l = k min ⁡ + ⌊ ( k max ⁡ − k min ⁡ ) ⋅ s ^ i ⌋ ( 3 ) k_i^{ideal}=k_{\min}+\left\lfloor (k_{\max}-k_{\min})\cdot \hat{s}_i\right\rfloor \quad(3) kiideal=kmin+(kmaxkmin)s^i(3)

  阶段 2:容量感知保护(Stage 2: Capacity-Aware Protection.)。令 B b a s e = N ⋅ k min ⁡ B_{base}=N\cdot k_{\min} Bbase=Nkmin表示维持全局时间锚点所需的基础成本。如果理想分配之和满足全局限制,即 ∑ i k i i d e a l ≤ B max ⁡ \sum_i k_i^{ideal}\leq B_{\max} ikiidealBmax,则直接采用 k i i d e a l {k_i^{ideal}} kiideal以最大化稀疏性。否则,论文基于归一化分数按比例分配剩余预算 B r e s = B max ⁡ − B b a s e B_{res}=B_{\max}-B_{base} Bres=BmaxBbase

k i = k min ⁡ + ⌊ B r e s ⋅ s ^ i ∑ j = 1 N s ^ j + ϵ ⌋ ( 4 ) k_i=k_{\min}+\left\lfloor B_{res} \cdot \frac{\hat{s}_i}{\sum_{j=1}^{N}\hat{s}_j+\epsilon}\right\rfloor \quad(4) ki=kmin+Bresj=1Ns^j+ϵs^i(4)

  随后,论文将 { k i } \{k_i\} {ki}离散化,并分配所有小数余量,以严格确保 ∑ i k i ≤ B max ⁡ \sum_i k_i\leq B_{\max} ikiBmax

  头部截断:零开销 token 选择(Head Truncation: Zero-Overhead Token Selection)。一旦动态预算 k i k_i ki被分配,论文只需简单截取记忆序列即可压缩该片段,即 H i A T A = H i [ 1 : k i ] \bold{H}_i^{ATA}=\bold{H}_i[1:k_i] HiATA=Hi[1:ki]。在小型视觉-语言模型因果注意力的自回归性质驱动下,论文从经验上观察到一种语义前置现象:局部压缩器会将最显著的全局证据压缩到最早生成的记忆 token 中。因此,这个 O ( 1 ) O(1) O(1)张量切片可以自然地分离出高价值语义,而无需引入有损的时空池化。最终的全局序列 { H ~ i A T A } i = 1 N \{\tilde{\bold{H}}_i^{ATA}\}_{i=1}^{N} {H~iATA}i=1N严格满足 B max ⁡ B_{\max} Bmax,从而即使在对长达数小时的视频进行推理时,内存占用也完全可预测。

  

1.2.5 结论(Conclusion)

  论文提出了 Tempo,这是一种高效的 6B 参数框架,用于解决海量视频流与受限大语言模型上下文窗口之间的结构性失配。不同于稀疏采样或时空池化这类与查询无关的启发式方法,Tempo 原生地统一了一个局部小型视觉-语言模型和一个全局大语言模型。它将视觉 token 缩减表述为一个早期跨模态蒸馏过程,在一次前向传播中生成高度压缩、与意图对齐的视频表征。为了在推理时施加严格的视觉预算,同时不牺牲细粒度证据或整体因果性,论文提出了自适应 token 分配(ATA)。在小型视觉-语言模型的零样本相关性先验和经验观察到的语义前置现象驱动下,ATA 执行 O ( 1 ) O(1) O(1)的动态头部截断。它将密集带宽积极路由到与查询关键相关的语义节拍上,同时将冗余压缩为最小时间锚点,以维持全局叙事。Tempo 在多个基准上建立了新的最优性能,尤其是在极长视频基准 LVBench 上超过了专门的长视频多模态大语言模型和专有基线。关键的是,论文的缩放分析揭示,最优资源分配取决于视频时长。虽然紧凑的 4K 预算对标准长视频任务而言是一种高效的去噪器,但要掌握长达数小时的叙事,则需要扩展上下文容量。通过在实践中将视频压缩到远低于理论上限的 token 数量,Tempo 展示了一个深刻性质:真正的长时多模态理解,最佳实现方式并不是贪婪地填充庞大的上下文窗口,而是基于语义必要性进行由意图驱动的动态分配。

  

1.3 实验(Experiments)

1.3.1 实验设置(Experimental Setup)

  架构与实现。Tempo 的局部小型视觉-语言模型初始化自 Qwen3-VL-2B-Instruct,而全局大语言模型采用 Qwen3-LM-4B。一个线性投影器连接小型视觉-语言模型的记忆空间与大语言模型,从而形成一个紧凑的 6B 参数架构。论文通过 Decord 以 2 FPS 抽取帧,并在超过限制时应用均匀下采样。在训练期间,连续视频被划分为 4 帧片段,每个片段由小型视觉-语言模型压缩为 k max ⁡ = 128 k_{\max}=128 kmax=128个记忆 token。在推理期间,片段窗口扩大到 8 帧。ATA(第 3.4 节)通过头部截断严格施加全局视觉预算 B max ⁡ B_{\max} Bmax(4K 或 8K)。模型在一个 64-GPU 集群上使用 FSDP 进行训练。更多超参数见附录 C。

  渐进式训练课程。论文采用一个严格的四阶段渐进式训练课程,以确保稳定优化和上下文外推。

  • 阶段 0(模态对齐):论文冻结小型视觉-语言模型和大语言模型,仅在标准 LCS-558K 数据集上优化线性投影器。这建立了基础的视觉-语言对齐,将小型视觉-语言模型的视觉表示与大语言模型的文本嵌入连接起来。

  • 阶段 1(预训练):论文解冻整个架构,并在一个大规模精选多模态语料上进行优化,该语料包含约 200 万张图像、约 138 万个视频以及约 14.3 万条纯文本样本。在这一阶段,视频以 8 帧进行稀疏采样,使模型获得初始的时间感知能力。

  • 阶段 2(广泛监督微调):为了发展稳健的指令遵循能力和语义感知的时序推理能力,论文使用一个高度多样的数据混合进行全面监督微调,其中包含约 93 万张图像、约 225 万个视频以及约 7.1 万条文本样本。在这一阶段,时间上下文被系统性扩展,每个视频采样帧数的最大值被严格限制为 128。

  • 阶段 3(长上下文监督微调):为了有效外推上下文窗口,论文冻结小型视觉-语言模型,仅在阶段 2 的一个高质量子集上对全局大语言模型进行微调,该子集包含约 38.4 万个样本。在这里,最大帧数限制扩展到 384,使大语言模型能够处理长时间序列。

  评测基准与基线。为了评估 Tempo 的长视频理解能力,论文在四个代表性基准上开展了全面实验,即 LongVideoBench、MLVU、Video-MME 和 LVBench(极长视频),覆盖了从标准长视频任务到小时级压力测试的范围。论文将 Tempo 与广泛使用的专有基线(如 GPT-4o、Gemini Pro 1.5)、通用开源权重多模态大语言模型(如 InternVL、Qwen-VL)以及专门的长视频多模态大语言模型(如 VideoChat-Flash、LongVA)进行比较。所有评估都使用 lmms-eval 进行。

  

1.3.2 对比实验(Comparison with State-of-the-arts)

在这里插入图片描述

在这里插入图片描述

  

1.3.3 消融实验(Ablation Study)

在这里插入图片描述

在这里插入图片描述

  

二、论文理解&总结

  1️⃣ 如何理解论文提出的局部时序压缩器?

  • 输入是每个视频片段 S i S_i Si对应的单一因果序列,包含系统提示、视觉 token X i X_i Xi、用户查询 Q Q Q和可学习记忆 token M M M
  • 输出是该片段的压缩表示 H i ∈ R k max ⁡ × d s H_i\in\mathbb{R}^{k_{\max}\times d_s} HiRkmax×ds,随后再投影为 H ~ i \tilde{H}_i H~i供全局大语言模型使用。
  • 作用是作为局部时序压缩器,把视觉 token 压缩转化为查询感知的早期跨模态蒸馏过程,生成紧凑且与用户意图对齐的视频记忆表示;同时其前向过程还可提供零样本相关性信号,用于 ATA
    分配片段预算。

  

  

  

三、代码学习

  暂时省略,用到再分析。

  

写在最后

  由于笔者🖊️精力有限且本文更多的目的是通过📒博客记录学习过程并分享更多知识,因此文中部分描述不太具体,如有不太理解💫的地方可在评论区👀留言。非特殊赶deadline⏰或假期⛱️期间,笔者会经常上线回复💬。如有不便之处,请海涵~

  如果想了解更多关于长视频理解和视频智能体新工作,可以关注笔者的Github仓库:Awesome-Video-Agent

  另外,创造不易,转载请注明出处💗💗💗~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐