Vgent框架:基于图谱增强的大模型长视频理解新突破,性能提升5.4%!
Vgent框架是由沙特阿卜杜拉国王科技大学和Meta AI提出的基于图的检索推理增强生成框架,通过构建视频语义图谱和结构化推理机制解决长视频理解挑战。该框架采用四阶段流水线设计:离线视频图谱构建、基于图的检索、结构化推理和多模态增强生成。实验表明,Vgent在MLVU基准测试上实现3.0%-5.4%的性能提升,相比传统RAG方法保持时序连贯性并减少检索噪音,为长视频理解领域带来重要突破。
简介
Vgent框架是由沙特阿卜杜拉国王科技大学和Meta AI提出的基于图的检索推理增强生成框架,通过构建视频语义图谱和结构化推理机制解决长视频理解挑战。该框架采用四阶段流水线设计:离线视频图谱构建、基于图的检索、结构化推理和多模态增强生成。实验表明,Vgent在MLVU基准测试上实现3.0%-5.4%的性能提升,相比传统RAG方法保持时序连贯性并减少检索噪音,为长视频理解领域带来重要突破。

文章摘要
沙特阿卜杜拉国王科技大学和Meta AI研究团队提出Vgent框架,通过构建视频语义图谱和结构化推理机制,显著提升大型视频语言模型在长视频理解任务中的表现,在MLVU基准测试中获得3.0%-5.4%的性能提升。
原文PDF - https://t.zsxq.com/JSYYi
引言:长视频理解的技术挑战
随着多模态大语言模型(MLLMs)在视觉理解领域的快速发展,大型视频语言模型(LVLMs)在视频理解任务中展现出巨大潜力。然而,处理和推理长时间视频内容仍然是一个巨大挑战——一段30分钟的视频可能包含超过200K个token,远超大多数模型的上下文限制。
现有的解决方案主要依赖稀疏帧采样或token压缩技术,但这些方法不可避免地导致视觉信息丢失,削弱了细粒度时序理解和连贯推理能力。虽然检索增强生成(RAG)技术在处理大语言模型的长上下文方面表现出色,但将其应用于长视频面临着时序依赖关系断裂和无关信息干扰等挑战。
Vgent框架:创新的图谱化解决方案
核心创新点
沙特阿卜杜拉国王科技大学和Meta AI的研究团队提出了Vgent框架,这是一个全新的基于图的检索推理增强生成框架,专门用于增强LVLMs的长视频理解能力。
该框架的两大核心创新包括:
-
结构化图表示
:通过构建保持视频片段间语义关系的结构化图谱来表示视频,提高检索效果
-
中间推理步骤
:引入结构化验证机制来减少检索噪音,促进跨片段相关信息的显式聚合,产生更准确和上下文感知的回应

[Figure 1框架总体概览图,展示基于图的检索推理增强生成框架]
技术架构深度解析
Vgent框架采用四阶段流水线设计,如下图所示:

[Figure 2:完整的技术流水线图]
阶段一:离线视频图谱构建
首先,系统将长视频V分割成包含K帧(K=64)的短视频片段序列{V₁, V₂, …, V⌈F/K⌉}。对于每个视频片段,利用LVLM从口语内容(字幕)Cᵢ和视频片段Vᵢ中提取关键语义实体:
code
{(e₁ᵢ,
t
₁ᵢ), (e₂ᵢ,
t
₂ᵢ), ...} ← LVLM(Cᵢ, Vᵢ)
其中实体集合记为Eᵢ = {e₁ᵢ, e₂ᵢ, …},对应描述集合记为Tᵢ = {t₁ᵢ, t₂ᵢ, …}。
实体合并与节点连接是图构建的关键步骤。由于LVLM独立处理视频片段,系统需要识别并统一跨片段语义等价的实体。具体而言,对于新提取的实体-描述对(eⱼᵢ, tⱼᵢ),系统计算其与全局实体集合U中实体描述的相似度分数:
code
s*
=
max_{u∈U} sim(tⱼᵢ, tᵤ)
u* = argmax_{u∈U} sim(tⱼᵢ, tᵤ)
如果相似度分数 > τ(τ=0.7),则实体eⱼᵢ被认为与现有实体语义等价并合并;否则作为独特实体加入U。
阶段二:基于图的检索
关键词提取:系统首先从查询Q中提取关键语义元素K,避免直接基于原始查询进行检索可能导致的上下文不足问题。
图基检索:对于每个关键词k∈K和每个实体u∈U,计算相似度分数sim(k, tᵤ)。如果sim(k, tᵤ) > θ(θ=0.5),则将与实体u相关的所有节点纳入目标检索节点集R:
code
R
= ⋃_{u∈U,k∈K} {v∈V | u∈U(v), sim(k, tᵤ) > θ}
获得检索节点集R后,系统基于查询关键词与每个节点的实体、文本描述和字幕的相似度对节点重新排序,最终选择Top-N(N=20)个具有最高平均相似度分数的节点。
阶段三:结构化推理
结构化查询细化:研究团队发现,在约40%的失败案例中,正确片段确实被成功检索到,但模型仍然生成错误回应。为解决这一问题,系统采用分而治之策略,通过结构化查询验证来细化检索结果。
具体而言,系统提示LVLM基于原始查询Q和提取的关键词K生成结构化子查询Q。这些子查询专注于验证相关实体的存在或量化其出现次数,期望答案为二元(是/否)或数值。

[Figure 3:结构化子查询示例图]
经过结构化验证后,细化的片段集R’可表示为:
code
R'
=
{vᵢ ∈ R | ∃qⱼ ∈ Q, f(vᵢ, qⱼ) > 0}
其中f(vᵢ, qⱼ)表示检索片段vᵢ对子查询qⱼ的回应。系统在细化后最多保留r=5个片段。
信息聚合:系统让LVLM聚合和总结来自结构化查询的所有有用信息及其对应的每个视频片段结果,提供丰富的辅助上下文以增强最终推理。
阶段四:多模态增强生成
系统将中间推理结果和过滤的视频片段作为多模态上下文输入到LVLM中生成最终回应。这种丰富的输入允许模型同时利用结构化推理和相关视觉信息,生成更准确且上下文相关的最终答案。
实验评估与性能表现
实验设置
研究团队在七个不同规模(2B到7B)的LVLM上评估框架性能,包括InternVL2.5、Qwen2、Qwen2.5-VL、LongVU和LLaVA-Video等开源模型。
评估使用三个长视频理解基准:
-
Video-MME
:包含从11秒到1小时的不同长度视频子集
-
MLVU
:视频长度从3分钟到2小时,平均约12分钟
-
LongVideoBench (LVB)
:专注于需要分析长帧序列的推理任务
主要实验结果

[Table 1:与LVLM性能对比表]
与LVLM对比:实验结果显示,Vgent框架在所有模型上都实现了显著改进:
- 在MLVU基准上,框架将LongVU性能提升5.4%,Qwen2.5VL (7B)提升3.3%
- 值得注意的是,应用于Qwen2.5VL (3B)时,Vgent达到70.4%的准确率,超越其更大的7B对应版本,并将基础模型性能提升4.2%
- 在VideoMME基准上,框架在所有视频长度上都优于基础模型,平均性能提升4.2%

[Table 2:RAG方法对比表]
与最先进RAG方法对比:
- 框架在三个不同LVLM基础模型上都持续优于RAG基线Video-RAG
- 与严重依赖闭源API的专有RAG方法相比,Vgent提供了更灵活有效的长视频理解解决方案
- 总体而言,框架超越现有基于RAG的视频理解工作8.6%
消融实验分析

[Table 3:消融实验结果表]
NaïveRAG vs GraphRAG:集成GraphRAG相比NaïveRAG平均提升2.9%,在MLVU上特别显著提升4.1%。这是因为NaïveRAG难以处理需要跨多个片段时序推理的复杂查询,而GraphRAG通过图表示有效保持片段间语义关系。
结构化推理(SR)效果:通过结构化查询的中间推理细化检索节点,在MLVU上额外提升2.6%,VideoMME上提升1.6%,总体平均提升3.4%。
检索数量影响:

[Table 4:检索片段数量影响分析表]
研究发现增加检索片段数量持续改善性能,特别是对于需要多片段推理的任务,在r=5时达到最高性能。
推理时间分析

[Table 5:推理时间分析表]
框架在计算效率方面表现出色:
- 离线图构建需要20.13秒,但这是查询无关的一次性过程
- 在线检索、推理和生成过程每分钟视频仅需3.93秒
- 在多问题场景中(如VideoMME每个视频三个问题),相比Video-RAG实现1.73倍加速
定性分析案例

[Figure 3:定性分析示例]
图3展示了一个典型案例:虽然基于图的检索系统能够识别包含笔记本电脑的相关节点,但模型最初由于来自多个片段的难负样本干扰而错误回答。然而,通过中间推理步骤验证每个检索节点的结构化子查询,系统能够正确推断笔记本电脑被打开,克服了难负样本的干扰。
技术优势与创新价值
相比现有方法的优势
- 保持时序连贯性:不同于将长视频分割成独立文档的传统方法,Vgent通过图结构保持实体和时序依赖关系
- 自包含设计:相比依赖专有LLM如GPT-4的方法,Vgent专门针对开源LVLM设计,更具灵活性和成本效益
- 查询无关图构建:图构建离线执行且查询无关,一旦构建可重用于同一视频的多个问题,无需重新处理视频
- 结构化噪音减少:通过结构化推理步骤系统性过滤无关片段,有效减少信息过载问题
应用场景与商业价值
该技术在多个领域具有广阔应用前景:
-
网络内容分析
:处理长时间在线视频内容的自动化理解和标注
-
生活记录系统
:个人或企业长时间视频记录的智能检索和分析
-
流媒体服务
:提升视频推荐系统的内容理解精度
-
安防监控
:长时间监控视频的异常检测和事件分析
局限性与未来发展
虽然Vgent框架在长视频理解方面取得显著进展,但仍存在一些局限性:
- 图构建开销:虽然是离线过程,但对于大规模视频数据集,图构建仍需要相当的计算资源
- 实体识别准确性:框架性能部分依赖于LVLM的实体提取能力,在复杂场景中可能存在识别错误
- 跨模态对齐:视觉实体与文本描述的对齐仍有改进空间
未来研究方向可能包括:
- 优化图构建算法以提高效率
- 增强跨模态实体对齐技术
- 扩展到更多视频理解任务
结论与展望
Vgent框架通过创新的图谱化表示和结构化推理机制,为长视频理解领域带来了重要突破。其在保持时序关系、减少检索噪音、提升推理准确性等方面的技术创新,不仅在学术基准测试中获得显著性能提升,更为实际应用场景提供了可行的解决方案。
该工作为更准确和上下文感知的长视频检索推理系统铺平了道路,标志着多模态大语言模型在视频理解领域的重要进展。随着技术的不断完善,预计将在智能视频分析、内容理解等领域产生广泛的商业价值和社会影响。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)