注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百七十五

视频理解大突破!Video-LLaVA 与 LLaVA-NeXT-Video 双雄争霸,刷新多模态模型性能天花板

7.5.6 Video-LLaVA和LLaVA-NeXT-Video
Video-LLaVA和LLaVA-NeXT-Video是两个在视频理解和生成领域具有先进性能的多模态模型。Video-LLaVA是一个由北京大学元宇宙创新实验室团队开发的视频推理和语言理解框架。它利用最新的深度学习技术和自然语言处理算法,为用户提供了一种高效、准确地理解和生成视频描述的方法。Video-LLaVA的核心技术包括多模态融合、Transformer架构、预训练与微调等。它在多个视频理解和生成任务上表现出色,特别是在视频问答方面。
LLaVA-NeXT-Video是LLaVA系列模型的视频理解分支,它在视频任务上取得了显著的性能提升。LLaVA-NeXT-Video模型在零样本(Zero-Shot)情况下就能在视频理解任务上表现出色,这意味着它无需针对视频数据进行额外的训练就能处理视频内容。此外,通过动态规划优化(Dynamic Programming Optimization,DPO)训练和人工智能反馈,LLaVA-NeXT-Video在视频理解方面取得了显著改进。
1.Video-LLaVA
北京大学研究团队提出的Video-LLaVA,是一款开创性的视觉语言大模型,旨在通过统一图片和视频的输入处理,提升大语言模型的视觉理解能力。该模型通过预先对齐图像和视频特征,使大语言模型能够在统一的视觉表示中学习模态间的交互,从而在一系列图片和视频基准测试中展现出领先的性能。
1)核心创新点
Video-LLaVA的创新之处在于其对“提前对齐”(Alignment Before Projection,ABP)的重视。传统方法中,图片和视频分别通过各自编码器处理,导致大语言模型难以学习统一的视觉表征。Video-LLaVA通过LanguageBind编码器预先对齐图片和视频特征,形成统一的视觉特征空间,解决了这一问题,实现了图片和视频特征的“涌现对齐”。
2)训练策略
Video-LLaVA采用两阶段训练策略。首先,在视觉理解阶段,模型通过大量图像-文本和视频-文本对学习基本的视觉理解能力。随后,在指令微调阶段,模型基于更复杂的指令和对话数据集学习生成响应,这一阶段中大语言模型也参与进来,增强了模型的指令理解和回复生成能力。
3)实验结果
实验显示,Video-LLaVA在多个视频问答数据集上超越了Video-ChatGPT,尤其是在视频理解任务上表现出色。同时,在图片理解能力上,与InstructBLIP、Otter、mPLUG-owl等模型相比,Video-LLaVA同样展现出优越性。预先对齐视觉输入的策略在图片问答、幻觉减少、OCR能力提升等方面均有显著效果。此外,联合图片和视频训练不仅增强了图片理解,还显著提升了视频理解能力,特别是在复杂推理和对话场景中。
4)统一视觉表示的重要性
通过对比MAE Encoder与LanguageBind Encoder,研究发现统一视觉表示(即预先对齐视觉特征)在多个图片和视频理解基准上展现出更强的性能。这不仅提升了图片问答的准确性,还改善了模型在理解复杂场景、减少幻觉、增强OCR等方面的能力。对于视频理解,统一视觉表示同样带来了显著的性能提升。
5)联合训练的协同效应
实验还揭示了图片和视频联合训练的协同效应。在图片理解上,Video-LLaVA减少了幻觉问题,增强了对数字信号的理解;在视频理解上,模型在问答数据集上的表现也得到了全面提升。这表明,图片和视频的联合训练不仅促进了模型对视觉表示的整体理解,还提高了其在具体任务上的表现。
Video-LLaVA通过其创新的“提前对齐”策略和两阶段训练流程,成功地将图片和视频的处理统一起来,显著提升了大语言模型在视觉理解领域的性能。其在多个基准上的领先表现,特别是视频问答领域的新SOTA记录,证明了统一视觉表示和联合训练策略的有效性和重要性,为视觉语言模型的研究开辟了新的方向。
2.LLaVA-NeXT-Video
LLaVA-NeXT-Video是LLaVA-NeXT系列中的一个专门针对视频任务的模型,它继承了LLaVA-NeXT的多模态理解能力,并在视频任务上进行了专门的优化和调整。LLaVA-NeXT开源地址是https://github.com/LLaVA-VL/LLaVA-NeXT,LLaVA-NeXT-Video在此项目里。LLaVA-NeXT是LLaVA系列的最新迭代版本,它在多模态理解和生成能力上取得了显著的进步。LLaVA-NeXT的主要亮点包括使用更大更强的大模型来提升多模态能力,以及在实际场景中展现出更好的视觉对话能力。这些改进使得LLaVA-NeXT在多个基准测试中超越了之前的版本,并在某些测试中接近了GPT-4V的性能。LLaVA-NeXT的架构设计保持了LLaVA的简约风格和数据效率,最大的110B模型在128个H800 GPU上只需18小时即可完成训练。这种高效的训练能力得益于LLaVA-NeXT对大模型的依赖,它能够从大模型中继承丰富的视觉世界知识和逻辑推理能力。
在模型配置方面,LLaVA-NeXT采用了最新的LLaMA3 8B、Qwen-1.5 72B和Qwen-1.5 110B作为其语言模型。这些模型的规模和性能直接影响着LLaVA-NeXT的多模态理解能力。研究表明,更大参数量的大模型能够提供更强的语言能力,这反过来又增强了LLaVA-NeXT的多模态理解能力。此外,LLaVA-NeXT还构建了一个专门的评测集LLaVA-Bench ,用于评估模型在真实场景中的多模态能力。在视觉表示方面,LLaVA-NeXT通过扩大图像分辨率和图像特征Token数来提升性能。这种做法在提升图像理解和OCR能力方面尤其有效。为了平衡性能和计算资源,LLaVA-NeXT推荐优先扩大图像分辨率,其次是提升Token数量。这种策略在保持高效的同时,能够显著提升模型的多模态理解能力。在训练策略方面,LLaVA-NeXT将训练过程分为三个阶段:图文对齐、高质量知识学习和视觉指令微调。这些阶段的划分有助于模型更好地学习和适应多模态任务。特别是在高质量知识学习阶段,LLaVA-NeXT通过引入高质量的Caption数据、新的领域知识和混合数据集来提升模型的综合能力。
LLaVA-NeXT在多模态理解和生成方面取得了显著的进步,这得益于其对更大更强大模型的依赖、高效的训练策略和对视觉表示的优化。这些改进使得LLaVA-NeXT在多个基准测试中表现出色,并在实际场景中展现出强大的视觉对话能力。
3.LLaVA-NeXT-Video和Video-LLaVA对比分析
LLaVA-NeXT-Video和Video-LLaVA都是在视频理解和生成领域具有先进性能的多模态模型。LLaVA-NeXT-Video在零样本视频理解方面表现出色,并通过DPO训练和人工智能反馈进一步提升了性能。而Video-LLaVA则在多个视频理解和生成任务上表现出色,特别是在视频问答方面。两者都在推动多媒体信息处理和人机交互的边界,为视频内容的理解和生成提供了强大的工具。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐