本篇文章介绍了套娃多模态模型,它通过表示具有可调节标记粒度的视觉内容,使大型多模态模型更加高效。优势包括明确的动机、简单但有效的方法以及显示灵活性和效率的扎实实验。弱点是运行时适应性有限,以及在使用高级视频模型或分析任务复杂性方面存在一些差距。


01 Introduction

LLaVA 等大型多模态模型(LMM)在视觉语言推理方面表现出了强大的性能。这些模型首先将图像嵌入到固定的大量视觉标记中,然后将它们输入到大型语言模型 (LLM) 中。然而,这种设计导致高分辨率图像和视频等密集视觉场景的 token 数量过多,导致效率极低。虽然存在标记修剪和合并方法,但它们为每个图像生成单一长度的输出,并且无法灵活地权衡信息密度与效率。受套娃概念的启发,我们提出了 Matryoshka Multimodal Models:套娃多模态模型,它学习将视觉内容表示为嵌套的视觉标记集,这些标记跨多个粗粒度到细粒度捕获信息。我们的方法为 LMM 提供了几个独特的好处:(1) 可以在推理过程中显式控制每个测试实例的视觉粒度,例如,根据内容的预期复杂性或简单性调整用于表示图像的标记数量;(2)M 提供了一个分析现有数据集所需粒度的框架,我们发现 COCO 式基准测试只需要大约 9 个视觉 token 即可获得与使用全部 576 个 token 相似的精度;(3)我们的方法为探索样本级别的性能和视觉代币长度之间的最佳权衡提供了基础,我们的调查表明预言机上限和当前固定尺度表示之间存在很大差距。

02 Motivation

图 1:套娃多模式模型。我们强制从更精细的视觉标记 X 的更粗略的集合派生自更精细的视觉标记 X。因此,俄罗斯套娃视觉标记的粒度逐渐以可控的方式变化。

对于高分辨率图像,视觉标记的数量可能大得令人望而却步,对于长视频来说更是如此。现有工作(Lin et al., 2023b;Liu 等人,2024b;张等人,2024b;Team,2024)主要通过增加输入上下文长度来解决这个问题,从而向 LLM 输入大量(例如 3-8k 的视觉标记)。这种方法有几个明显的缺点:(1)极长的上下文使训练和推理效率低下;(2) 过多的视觉标记实际上会损害 LMM 的性能,分散其关注相关信息的注意力。

03 Contribution

  • 我们的方法为解决 LMM 中的关键任务奠定了基础:如何在正确回答视觉问题的同时使用最少数量的视觉标记?根据模型对测试集的预测,我们发现,与全可视化代币相比,我们的模型可以使用更少的token,同时性能要好得多。

04 Method

图 3:我们提出的套娃多模态模型的架构。CLIP 的视觉特征表示为几组从粗到细的视觉标记。在测试时,用户可以显式控制视觉特征的粒度。

我们的目标是学习一个大型多模态模型 (LMM),该模型将视觉内容表示为嵌套的视觉标记集,跨多个粗粒度到细粒度捕获信息,以便可以在推理过程中显式控制每个测试实例的视觉粒度。在这里,我们介绍如何学习一个类似俄罗斯套娃的令牌序列。

LLaVA(Liu et al., 2023a)等 LMM 通常将一系列视觉标记作为前缀标记输入到 LLM 中,以进行视觉语言推理。来自预训练视觉语言模型的视觉编码器,例如 CLIP(Radford 等人,2021 年)和 SigLIP(Zhai 等人,2023 年),通常用于将图像投影到视觉标记集中。具体地,CLIP 视觉编码器将输入图像 I 表示为视觉标记 X 的 H×W 网格,其中每个 X∈Rin 为 C 维特征向量。我们的目标是学习嵌套的视觉标记集 [X, X, · · · · x] ,它们以粗到细的方式对视觉信息进行编码。为此,我们执行 X⊂ X、∀i。重要的是,我们没有向 LMM 引入任何新的可学习参数。相反,我们优化了 CLIP 可视化编码器以直接学习嵌套的视觉表示,并训练随后的 LLM 以适应学习到的嵌套标记集。

为了便于说明,我们将 CLIP-ViT-L-336(Radford 等人,2021 年)视为视觉编码器,其中图像被编码为 24 × 24 个视觉标记(总共 576 个)。我们创建 M 组代币,例如 |S|∈ {1, 9, 36, 144, 576},其中较粗略级别的视觉标记直接派生自较细级别的视觉标记。具体来说,给定最初的 24×24 个视觉标记,我们依次应用 2×2 池化和步幅 2,产生 12 × 12、6 × 6 和 3 × 3 个视觉标记。最后,我们应用 3 × 3 池化,得到最浓缩的单个视觉 token。这样,套娃视觉标记集可以逐渐保留原始标记中的空间信息,同时形成从粗到细的嵌套表示。

其中 θ 是模型的可训练参数,其中包括 CLIP 视觉编码器和随后的 LLM。X 表示文本格式的问题,L 表示地面实况答案 X 的 token 长度,X 表示当前预测 tokenx 之前的所有地面实况答案 token,其中 j 表示文本 token 生成期间的 token 索引。为了清楚起见,我们省略了系统消息,尽管它们是条件反射的一部分。图 3 显示了我们的模型架构。所有 M 个视觉标记量表的最终目标平均值:

通过这个目标函数,Mlearns 嵌套了一组视觉标记,这些标记随着规模的增加逐渐包含更多细节。例如,在图 1 中,较小的视觉标记集在高层次上描述了整个场景,而较大的视觉标记集包含更多细节,例如百事可乐杯。我们的训练目标使我们的模型能够在推理过程中以任何粒度进行视觉问答。这在资源受限的应用程序中特别有用;例如,可以根据视觉内容的预期简单性或复杂性灵活调整视觉粒度,同时考虑计算和内存约束。

05 Experiment

表 1:LLaVA-1.5-M 在图像理解基准下跨各种基准的比较。LLaVA-1.5-M 保持了 LLaVA-1.5 的性能,同时以更少的代币优于 QwenVL 和 InstructBLIP。

LLaVA-1.5-M 我们评估了 LLaVA-1.5-Mon 常见的多模态理解和推理基准。结果如表 1 所示。LLaVA-1.5-M 使用完整代币可保持 LLaVA-1.5 在不同基准测试中的性能。更重要的是,即使使用 1 或 9 个代币,我们的方法也能显示出强大的性能。具体来说,在综合多模态理解基准测试 MMBench 中,具有 9 个 token 的 LLaVA-1.5-M 超过了 Qwen-VL-Chat 的 256 个代币,甚至达到了与 Qwen-VL-Chat 的 1 个代币相似的性能。与 InstructBLIP(Dai 等人,2023 年)相比,具有 9 个代币的 LLaVA-1.5M 在所有基准测试中都超过了 InstructBLIP-7B 和 InstructBLIP-13B。这表明我们的模型在多种视觉标记下既具有灵活性,又具有较强的经验表现。

表 2:LLaVA-NeXT 下各种基准中具有 SS 基线和 M 的方法比较(Liu 等人,2024b)。这里 # Tokens 表示 LLaVA-NeXT 中每个图像网格的视觉 token 数量。SS 表示使用视觉标记的特定规模训练的基线模型。M 至少与 SS 一样好,同时在 TextVQA、ChartQA 和 MMBench 等任务上表现更好。

我们使用提出的俄罗斯套娃多模态模型来微调 LLaVANeXT,并将 LLaVA-NeXT-M 与 SS 进行比较,SS 表示 LLaVA-NeXT 在视觉标记的特定规模下也训练了 1 个 epoch 的设置。我们还包括预言机的上限性能:“预言机”表示视觉代币之间最佳权衡的情况并为每个测试实例选择性能;即,对于每个测试实例,我们选择标记数量最少但可以正确回答问题的量表。表 2 显示,我们的方法 M 至少与 SS 一样好,同时在文档理解(TextVQA 和 ChartQA)和 MMBench 等常见基准测试等任务上表现更好(Liu et al., 2023b)。

我们的结果还表明,数据集级对视觉标记尺度的偏差确实存在。例如,ScienceQA 在所有可视令牌量表上保持一致的性能。AI2D 和 MMBench 在低至 9 比 1 的代币时也只会遇到小幅性能下降。另一方面,TextVQA 和 DocVQA 等密集视觉感知任务在标记较少的情况下表现出显着的性能下降。该分析表明,Mcould 可以作为分析基准所需粒度的框架。

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐