CVPR 2025 | AKS:自适应关键帧选取
其中,“Frames”(帧数)表示输入至多模态大语言模型(MLLM)的视频帧数,“LLM”(大语言模型)表示该模型中语言部分的参数数量。这些提升不仅使我们的方法超越了其他具有相似计算复杂度的竞争对手(即输入不超过64帧,大语言模型不大于7B),还使其能够达到更大模型所设定的更高水平(例如,借助AKS,LLaVA-Video-7B在LongVideoBench上的成绩为。选取函数表示,在用户问题Q下
论文信息
- 题目:Adaptive Keyframe Sampling for Video Understanding
- 作者:Xi Tang1, Jihao Qiu1, Lingxi Xie, Yunjie Tian, Jianbin Jiao, Qixiang Ye
- 会议:CVPR 2025
- 代码链接:https://github.com/ncTimTang/AKS.
创新点
- 即插即用的关键帧选择模块:我们将关键帧选择设定为多模态大语言模型(MLLM)视觉编码器之前的即插即用模块,其目标是最大化关键帧在视频理解中的有用性。
- 优化相关性 :利用视觉-语言(VL)模型计算每个候选帧与提示词之间的相关性
- 优化覆盖率 :通过将视频递归划分为多个区间并统计每个区间内的关键帧数量来估计覆盖率。
问题
①长视频标记量显著超出了多模态大型语言模型的最大容量。
②现有方法存在不足:多采用简单均匀采样等策略筛选关键帧,易丢失关键信息,导致模型输出错误答案。
需要优化: 关键帧与提示词之间的相关性,关键帧对视频的覆盖率。
这张图直观对比了 “均匀采样” 和 “自适应关键帧采样(AKS)” 对多模态大模型(MLLMs)理解长视频的影响,核心是展示 AKS 如何解决关键信息丢失的问题。
解决方法

整体框架如图,我们在多模态大语言模型中插入了一个即插即用模块——自适应关键帧采样(AKS,用绿色框标记),以提高采样关键帧的质量。每个红点表示一个提示-帧匹配分数(即(s(Q, Ft)))。AKS采用递归的“判断-分割”优化方法进行关键帧选择。
-
关键帧选取原则
以下函数作用为:最大化有用信息的数量
选取函数表示,在用户问题Q下,从视频所有帧F里选M个关键帧(对应索引集合),选出能让 MLLM 回答置信度G ′最高的关键帧集合。
但其在数学上难以求解:候选数量过多,且无法精准估计G‘(“关键帧质量” 和 “模型回答对错” 无法完全对应,找不到明确的监督信号来判断 “哪组关键帧是最好的”)
这个公式用 “相关性 + 覆盖率” 这两个可计算的指标,代替原公式里不好算的 “模型置信度”,把问题变成 “选 M 个帧,让‘和问题相关’+‘覆盖全视频’的总分最高。 -
自适应关键帧采样
本部分将讨论一种近似方法——时间戳感知优化,考虑时间戳从而获得更好的关键帧选择结果。- 情况 1:(λ=0)只看相关性→ 顶部采样(TOP)策略,即不管关键帧是否覆盖全视频,只相关性最高的前 M 帧。
问题:这些高分帧可能全挤在视频的某一小段里,导致模型漏掉其他时段的关键信息。 - 情况 2:(λ→+∞)只看覆盖率→ 区间采样(BIN )策略,即先把视频均匀分成多个区间,然后在每个区间里选得分最高的 1 帧 —— 严格保证关键帧覆盖整个视频时段。
问题:如果所有帧的得分都一样,这个策略就退化为 “均匀采样”(UNI) 策略。 - AKS 算法里的 自适应采样(ADA)策略
我们调用所有帧的相关度分数,计算所有帧的平均分数以及分数最高的M个帧的平均分数。
如果只需选择一个关键帧,或者“高分帧平均分 - 所有帧平均分” 超过了设定的阈值,那么说明高分帧和普通帧差距很大,则选得分最高的 M 个帧(优先保证相关性,即最大化公式(2)的第一项),因此该算法直接返回得分最高的M个帧作为关键帧。
否则,我们将当前容器拆分为两个子容器,关键帧数量平均分配(即最大化公式(2)的第二项),然后在子容器中递归调用上述程序。我们将这种策略命名为ADA。
上图通过一个示例展示了自适应采样(ADA)的工作原理。ADA是TOP和BIN这两种特殊情况之间的折中方案。吸收了TOP和BIN的优点,并实现了视频理解的最佳实践。
- 情况 1:(λ=0)只看相关性→ 顶部采样(TOP)策略,即不管关键帧是否覆盖全视频,只相关性最高的前 M 帧。
实验
我们将AKS与最近三种基于视频的多模态大语言模型进行了对比。
表 1. 不同方法在 LongVideoBench(简称 LVB,验证集)和 VideoMME(简称 VMME)上的视频问答准确率(%)。自适应关键帧采样(AKS)算法基于三种基线方法进行测试。其中,“Frames”(帧数)表示输入至多模态大语言模型(MLLM)的视频帧数,“LLM”(大语言模型)表示该模型中语言部分的参数数量。
AKS相比三个基线模型带来了持续的准确率提升,例如,在Qwen2VL上,在LongVideoBench上的提升为5.0%,在VideoMME上的提升为2.3%;即使在最强的基线模型LLaVA-Video上,这些数值也分别为3.8%和0.9%。这些提升不仅使我们的方法超越了其他具有相似计算复杂度的竞争对手(即输入不超过64帧,大语言模型不大于7B),还使其能够达到更大模型所设定的更高水平(例如,借助AKS,LLaVA-Video-7B在LongVideoBench上的成绩为62.7%,比不使用AKS的LLaVA-Video-72B模型高出0.8%,比使用256输入帧的两个专有模型GPT-4V和Gemini1.5-Flash分别高出1.4%和1.1%)。

上图中,我们展示了AKS(基于LLaVAVideo-7B)及其他方法具有代表性的视频理解结果。可以看出,所选关键帧与问题密切相关;这使得具有有限上下文容量的多模态大语言模型(MLLM)能够全面了解与问题相关的内容,从而得出正确答案。
表2. 不同采样策略的基于视频的问答准确率(%)。测试了采用AKS的LLaVA-Video-7B。
除了基线(即UNI采样)外,ADA采样取得了最佳效果,而TOP采样和BIN采样在各自的基准测试中各有优劣。所有的改进都归功于AKS在选择更高质量的关键帧方面表现出色。

如图,TOP采样通常能很好地定位这些关键帧,而BIN采样会限制每个区间内的关键帧数量,导致信息丢失。相反,VideoMME的问题往往要求模型从多个时刻收集信息(例如,“某件事发生了多少次?”),因此BIN采样是定位不同区间内关键帧的安全选择,而TOP采样可能会丢失弱峰值中的信息。ADA采样吸收了TOP和BIN策略的优点,并能自适应地将关键帧分配到所需位置——这就是它在两个基准测试中都能取得最佳结果的原因。

如图,在同一输入视频上,AKS会根据提示选择不同的关键帧集。这增加了冻结的MLLM适应不同场景的灵活性。
消融实验
不同采样频率下的问答准确率(%)。使用LLaVA-Video-7B作为多模态大语言模型。
不同VL评分器的问答准确率(%)。使用LLaVA-Video-7B作为多模态大语言模型。
表5. 同时消融L和sthr。左:LVB,右:V-MME。
扩展AKS以用于视频指称和字幕生成。基线结果基于均匀关键帧采样生成。红色和绿色文本分别表示不正确和正确的描述。
结论
该论文聚焦于提升多模态大语言模型(MLLMs)的长视频理解能力。主要难点在于多模态大语言模型的容量有限,这促使我们向模型输入信息丰富的视觉令牌。为此,我们提出了自适应关键帧采样(AKS)算法,该算法1.利用视觉-语言模型估计相关性
2.应用自适应优化算法以促进所选关键帧的覆盖度。
定量和定性研究验证了其有效性。
可视化结果
AKS增强基线多模态大语言模型(MLLMs)用于视频理解的更多示例。左侧三个示例来自LongVideoBench [43],而右侧三个来自VideoMME [10]。绿色星号表示由AKS选择的关键帧。
更多推荐


所有评论(0)