NEO 原生视觉语言模型:告别模块拼接的多模态统一架构
【摘要】NEO模型摒弃传统模块化设计,提出原生统一视觉语言架构。通过原生基元、位置编码与混合注意力等关键技术,在单一Transformer骨架内高效融合图像与文本,为多模态AI开辟了新范式。
【摘要】NEO模型摒弃传统模块化设计,提出原生统一视觉语言架构。通过原生基元、位置编码与混合注意力等关键技术,在单一Transformer骨架内高效融合图像与文本,为多模态AI开辟了新范式。
引言
在多模态人工智能领域,视觉语言模型(VLM)的发展长期遵循一条看似稳妥的路径,即模块化拼接。我们将成熟的视觉编码器与强大的语言大模型(LLM)通过一个“适配器”或“投影器”连接起来,如同组装一台高性能计算机,每个部件各司其职。这种方法在过去数年间催生了众多知名模型,也确实解决了许多实际问题。
然而,随着应用场景的深度与广度不断拓展,从简单的图文问答到复杂的文档理解、图表分析,这种“胶水式”集成的天花板日益显现。模块间的特征鸿沟、复杂的工程维护、不明晰的扩展规律,都成为制约其性能进一步跃升的枷锁。
本文将深入剖析由新加坡南洋理工大学S-Lab主导研发的NEO模型。它并非对现有路线的修补,而是一次彻底的范式革命。NEO的核心思想是原生统一,即在同一个模型骨架内,将图像与文本视为同等公民,共同处理、统一建模。我们将从架构困境、设计哲学、关键技术、工程实现与应用价值等多个维度,系统解构NEO如何为多模ছাড়া态AI的未来指明一条化繁为简的道路。
🌀 一、模块化范式的黄昏:传统VLM架构的内在困境

在深入NEO的创新之前,我们必须清晰地认识到它试图解决的问题根源。当前,市面上几乎所有主流的多模态大模型,都构建于一种模块化的设计哲学之上。
1.1 “三段式”流水线架构
传统VLM的典型架构可以被描绘成一个三段式流水线。

-
视觉编码器 (Visual Encoder):通常是一个在海量图像数据(如ImageNet)上预训练好的模型,例如ViT(Vision Transformer)或ConvNeXt。它的职责是将输入的图像像素转换为一系列高维度的特征向量,相当于模型的“眼睛”。
-
投影器 (Projector):这是一个相对轻量的网络,如多层感知机(MLP)或更复杂的Q-Former。它的核心任务是扮演“翻译官”的角色,将视觉编码器输出的特征向量,从视觉特征空间映射到语言模型能够理解的文本特征空间。
-
语言大模型 (LLM):这是一个预训练好的、强大的语言模型,作为整个系统的“大脑”。它接收经过投影器转换的视觉特征,并将其与用户的文本输入相结合,进行理解、推理,最终生成文本输出。
这种分而治之的策略,在早期探索阶段具备明显优势。它允许研究者复用社区已经训练好的、最先进的视觉和语言模型,通过“即插即用”的方式快速构建一个功能完备的VLM,极大地降低了研发门槛。
1.2 模块化设计的四重枷锁
随着时间的推移,这种设计的内在缺陷逐渐暴露,成为限制模型性能进一步突破的四重枷锁。
1.2.1 预训练偏见与特征错配
视觉编码器和语言大模型通常在截然不同的数据集、不同的目标函数下进行预训练。视觉编码器学习的是图像的通用表征,比如物体的形状、纹理和空间关系。语言模型学习的是文本的语法、语义和逻辑。
这种“出身”的差异导致了固有的预训练偏见。视觉编码器可能对特定分辨率、长宽比或图像风格更敏感,而这些偏好未必与下游多模态任务的需求完全一致。更严重的是,投影器虽然尽力弥合二者的特征空间,但这种“翻译”过程本质上是一种有损压缩。视觉信息中丰富的细节和细微的语义,在跨越模态鸿沟时不可避免地会丢失或失真。这就好比一位优秀的翻译,也无法百分之百地传达原诗的全部韵味与意境。
1.2.2 割裂的建模能力
在模块化架构中,图像的空间结构信息和文本的时序逻辑信息是在两个独立的模型内部进行建模的。视觉编码器通过其自注意力机制捕捉图像块(patch)之间的空间关系,而语言模型则通过其因果注意力机制处理文本标记(token)之间的前后依赖。
当需要进行深度跨模态推理时,这种割裂就成了障碍。例如,在理解一张复杂的科学图表时,模型需要同时理解图例文字的含义、数据曲线的空间走势以及坐标轴标签的精确数值。模块化模型很难在同一个计算步骤中,将“右下角的红色方块代表A公司”这一文本信息,与图像中对应位置的像素块进行原生、底层的关联。它更多依赖于高层语义的拼接,而非像素与字符级的深度融合。
1.2.3 高昂的工程与维护成本
维护一个由多个独立大模型组成的系统,其工程复杂度远超单一模型。这体现在多个方面:
-
版本管理:视觉编码器和LLM可能来自不同的开源社区,有各自的更新迭代周期。每次升级其中一个组件,都需要重新验证整个系统的兼容性和性能,甚至需要重新训练投影器。
-
部署开销:需要同时加载和管理多个大型模型的权重,对计算资源和显存的占用更高。
-
调试困难:当模型输出错误时,问题的根源可能在视觉侧、语言侧或投影器。定位和修复问题的链路更长,难度更大。
这种复杂性不仅增加了研发成本,也拖慢了模型的迭代速度。
1.2.4 模糊的扩展规律
当希望提升整个VLM的性能时,一个核心问题摆在面前:应该投入资源去扩大哪个组件的规模?是换一个更大的视觉编码器,还是升级到一个参数更多的LLM,抑或是设计一个更复杂的投影器?
目前,关于如何平衡各个模块以实现整体性能最优,缺乏清晰的扩展规律(Scaling Law)。这使得模型优化在很大程度上依赖于经验和大量的试错实验,充满了不确定性。随着未来需要融合音频、视频、3D等多模态信息,这种模块拼接的“组合爆炸”问题将变得更加棘手。
🧩 二、原生统一:NEO架构的设计哲学与核心理念
面对模块化范式的种种困境,NEO团队选择了一条截然不同的道路。其核心理念可以概括为原生统一(Native Unification)。这个理念的本质,是摒弃将模型视为不同专家协作的团队,而是致力于培养一个天生就能处理多模态信息的“母语者”。
2.1 从“专家协作”到“多模态母语者”
传统VLM像是雇佣了一位视觉分析师和一位语言学家,中间再配一个协调员。他们各自专业,但协作总有隔阂。NEO的目标则是培养一个从小同时接触图像和语言的孩子,两种信息在他的大脑中没有主次之分,使用同一套神经回路进行处理。
具体到模型架构,这意味着:
-
单一骨架:不再有独立的视觉编码器和语言模型,而是只有一个统一的Transformer骨架。
-
同等输入:图像块(patch)和文本标记(token)被视为同等地位的输入序列,共同送入这个统一的骨架中。
-
统一建模:模型在同一个参数空间内,使用同一套注意力机制,同时建模图像内部的空间关系、文本内部的时序关系以及图像与文本之间的跨模态关系。
这种设计从根本上消除了模态间的壁垒,让跨模态融合发生在模型计算的每一个底层环节,而非高层语义的拼接。
2.2 架构设计的三大核心原则
为了实现这一宏大目标,NEO的设计建立在三个紧密相连的核心原则之上。
-
统一的原生基元 (Unified Native Primitive):为整个系统设计一套通用的计算单元(即Transformer Block)。这个基元必须既能处理文本的时序依赖,又能处理图像的空间结构。它构成了NEO统一架构的“原子操作”。
-
预缓冲与后处理分离 (Pre-buffering & Post-processing Separation):这是一个巧妙的工程与训练策略。在训练初期,将模型逻辑上划分为负责编码视觉信息的“预缓冲”模块和基于现有LLM的“后处理”模块。这使得模型可以在复用强大LLM能力的同时,高效地学习视觉知识,最终实现无缝统一。
-
端到端学习 (End-to-End Learning):整个模型(或其关键部分)在一个统一的学习框架下进行训练。不同于模块化方法的多阶段、多目标训练,端到端学习让模型在处理图文数据的过程中,自发地学习如何对齐和融合不同模态的信息,减少了人工设计的中间环节和潜在的信息瓶颈。
这三大原则共同构成了NEO的理论基石,指导了其后续一系列具体的技术创新。
🛠️ 三、架构基石:NEO的三大关键技术解构

要将“原生统一”的哲学理念转化为实际可行的模型架构,需要解决一系列核心技术挑战。NEO通过三项关键的技术创新,成功构建了其统一的Transformer骨架。
3.1 原生视觉语言基元 (Native VL Primitive)
这是NEO架构的核心。挑战在于,如何在标准的Transformer Block基础上,赋予其处理二维空间信息的能力,同时不破坏其强大的文本处理能力。
NEO的做法并非推倒重来,而是在保持LLM原有结构(如RMSNorm、SwiGLU激活函数)的基础上,进行精巧的扩展。其关键改动在于多头自注意力(Multi-Head Self-Attention)模块。
-
头维度扩展:传统的注意力机制中,查询(Query)和键(Key)的头维度是固定的。NEO对其进行了扩展,显式地为高度(H)、宽度(W)和时间(T)三个维度分配了独立的通道。这意味着,当模型计算注意力分数时,它能够区分一个token是来自文本序列(时间维度T),还是来自图像的某个空间位置(H和W维度)。
-
零初始化策略:为了保证训练的稳定性,新引入的用于处理空间信息(H和W)的通道,其对应的权重被初始化为零。这确保了在训练初期,新增的视觉处理能力不会突然干扰到LLM原有的、已经训练好的语言分布。随着训练的进行,这些权重会逐渐学习到有意义的值,视觉能力被平滑地“激活”。
这个原生基元的设计,就像是在一个语言学家的神经网络中,开辟了专门处理空间几何的神经元集群,但两者共享同一套底层的思维逻辑。
3.2 原生旋转位置编码 (Native RoPE for H/W/T)
位置信息对于Transformer至关重要。文本需要知道词语的先后顺序,图像需要知道像素块的上下左右。传统VLM通常用一维位置编码处理文本,用二维位置编码处理图像,但在统一模型中如何协调是一个难题。
NEO采用了旋转位置编码(RoPE),并将其扩展为原生支持H/W/T三维。其核心思想是为不同维度分配不同的频率。
|
维度 |
角色 |
基频 (Base Frequency) |
设计考量 |
|---|---|---|---|
|
时间 (T) |
文本时序关系 |
1,000,000 |
保持与原LLM一致,能处理从局部到长程的各种文本依赖关系。 |
|
高度 (H) |
图像垂直空间关系 |
10,000 |
使用较低基频,更侧重于建模相对距离和局部语义依赖,符合图像处理的特性。 |
|
宽度 (W) |
图像水平空间关系 |
10,000 |
同上,与高度维度保持一致,共同构建二维空间感知。 |
这种设计的精妙之处在于,它避免了用单一的一维位置编码去生硬地表示二维空间,也避免了完全独立的编码体系带来的融合困难。通过在统一的RoPE框架下进行频率分离,模型能够在一个连贯的坐标系中,同时、且准确地理解“第三个词后面”和“左上角旁边”这类跨模态的位置关系。
3.3 混合注意力掩码 (Hybrid Attention)
在统一的注意力计算框架下,如何兼顾文本生成和图像理解的不同需求?文本生成要求模型遵循因果关系,即在预测下一个词时,只能看到前面的词。图像理解则希望模型能看到整张图片,捕捉全局的上下文信息。
NEO为此设计了混合注意力掩码机制。

-
对于文本token:当一个文本token作为查询(Query)时,系统会应用一个因果注意力掩码(Causal Mask)。这个掩码会阻止它“看到”序列中位于它之后的任何token(无论是文本还是图像)。这严格保持了LLM的自回归特性,确保了模型能够流畅、合乎逻辑地生成文本。
-
对于图像token:当一个图像patch token作为查询时,系统则应用一个完全双向的注意力掩码(Bi-directional Mask)。这意味着它可以关注输入序列中所有的其他图像token。这使得模型能够充分捕捉图像内部的全局空间依赖和上下文关系,形成对图像内容的整体理解。
通过这种动态的、基于token类型的掩码策略,NEO在同一个Transformer Block内,优雅地实现了“顺序阅读”(文本)与“全局观察”(图像)两种模式的共存与协同。
🏗️ 四、工程实现:从输入处理到训练策略的全景透视
有了坚实的理论和技术基石,NEO的成功还得益于一套系统、高效的工程实现方案,涵盖了从数据输入到模型训练的全过程。
4.1 输入与预缓冲设计
NEO如何将图像和文本这两种形态迥异的数据,喂给统一的模型?
-
图像处理:输入图像首先被切分成固定大小的、不重叠的图像块(patches)。例如,每个patch为16x16像素。然后,这些patches会经过一个轻量级的卷积补丁嵌入层(Patch Embedding Layer),将其映射为与文本token维度一致的视觉token。
-
文本处理:文本直接使用原有LLM的分词器(Tokenizer)进行处理,转换为文本token。
-
序列拼接与分隔:视觉token和文本token被拼接成一个单一的序列。为了让模型能够明确区分两种模态,NEO在视觉token序列的开始和结束位置,插入了特殊的边界标记(如
<image>和</image>)。这就像在文章中用引号来区分直接引语一样,为模型提供了清晰的结构化信息。

特别值得一提的是,NEO的预缓冲(Pre-buffering)模块设计。这个模块包含了视觉补丁嵌入层以及与LLM交互的关键组件。研究团队指出,这个预训练好的缓冲模块可以被独立出来,作为一个可重用的、即插即用的组件。这意味着社区中的其他研究者,可以在这个基础上,为不同的LLM快速适配强大的视觉能力,而无需从零开始训练,极大地促进了生态系统的发展。
4.2 三阶段渐进式训练
NEO的训练策略如同一套精心设计的教育方案,分为三个循序渐进的阶段,旨在高效地挖掘和塑造模型的多模态能力。
|
阶段 |
名称 |
目标 |
数据规模 |
核心策略 |
|---|---|---|---|---|
|
第一阶段 |
大规模图文预训练 |
建立基础的视觉概念与图文对齐能力 |
约3.45亿 |
冻结大部分LLM参数,重点训练视觉嵌入层、原生基元中的新增部分以及连接器。 |
|
第二阶段 |
多任务中期训练 |
强化跨模态协同与特定任务泛化能力 |
约4000万 |
解冻更多模型参数,使用覆盖VQA、OCR、检测、描述等多种任务的数据进行联合训练。 |
|
第三阶段 |
多模态指令微调 |
对齐人类指令,提升对话、推理与知识问答能力 |
约400万 |
使用高质量、多语言的指令数据集进行全参数微调,塑造模型的最终形态。 |
这种分阶段的策略,特别是第一阶段的参数冻结技巧,体现了极高的训练经济性。它避免了在学习基础视觉知识时,用海量数据去冲击和破坏LLM已经具备的强大语言能力,而是像做“微创手术”一样,精准地为语言模型嫁接上视觉的翅膀。这解释了NEO为何能用相对中等规模的数据(总计约3.9亿),就取得了卓越的性能。
好的,我们继续。
📊 五、性能验证:与模块化方案的正面交锋

一个新架构的价值,最终需要通过严苛的实验数据来证明。NEO团队在一系列公认的、涵盖不同能力维度的多模态基准测试上,将其与当前主流的模块化VLM进行了全面的性能对比。
5.1 综合能力基准测试
在考验模型综合视觉语言理解能力的基准上,NEO展现了惊人的竞争力。
表1:主流VLM在综合基准上的性能对比 (2B-3B参数规模)
|
模型 |
架构类型 |
MMMU (val) |
MMBench (dev) |
|---|---|---|---|
|
Qwen-VL-Chat |
模块化 |
35.5 |
68.5 |
|
CogVLM-Chat |
模块化 |
38.3 |
71.5 |
|
InternVL-Chat |
模块化 |
41.0 |
74.1 |
|
NEO-2.2B |
原生统一 |
48.6 |
76.0 |
-
MMMU (Multi-task Multimodal Understanding):这是一个极具挑战性的基准,涵盖了从大学到研究生水平的六个学科领域,需要模型具备深度的多模态推理能力。NEO-2.2B的得分达到了48.6,显著超越了所有同参数规模的模块化对手。
-
MMBench:这是一个全面的多模态能力评估集,包含20个细分能力维度。NEO同样取得了领先的76.0分。
这些数据有力地证明,原生统一架构在综合性能上,不仅不逊于精心优化的模块化方案,甚至具备更强的潜力。
5.2 特定任务能力评估
除了综合能力,NEO在需要精细视觉理解的特定任务上,表现同样出色,甚至能够逼近更大规模的模型。
表2:NEO在特定视觉问答任务上的表现
|
任务 (基准) |
任务描述 |
NEO-2.2B |
对比模型 (规模) |
|---|---|---|---|
|
图表理解 (ChartQA) |
理解并回答关于图表的问题 |
81.2 |
InternVL-8B (83.0) |
|
文档理解 (DocVQA) |
从文档图像中提取信息回答问题 |
89.9 |
Qwen-VL-Plus (90.5) |
|
场景文字 (TextVQA) |
识别并理解图像中的文字来回答问题 |
74.0 |
Yi-VL-6B (75.2) |
|
科学图表 (AI2D) |
理解科学示意图中的元素与关系 |
80.1 |
CogVLM-17B (82.1) |
从上表可以看出,NEO-2.2B以其相对小巧的体量,在图表、文档、场景文字等多个专业领域,取得了与参数量数倍于己的模块化模型相近甚至持平的成绩。这充分说明,架构的先进性可以在很大程度上弥补参数规模的不足。统一架构带来的底层、高效的跨模态融合能力,在处理这些信息密集、需要精细对齐的任务时,优势尤为明显。
5.3 消融实验:探究成功的关键
为了验证其架构设计的每一个组件都是不可或缺的,NEO团队进行了一系列消融实验。实验结果清晰地揭示了各项创新的贡献。
-
原生位置编码 vs. 传统1D编码:如果将NEO的原生H/W/T RoPE替换为传统的、将图像展平后使用的一维位置编码,模型在各项基准上的平均性能下降了4.5个百分点。这证明了为空间和时间维度分别建模的必要性。
-
混合注意力 vs. 纯因果注意力:如果强制图像token也使用因果注意力(即只能看到前面的图像块),模型性能平均下降了0.7个百分点。这虽然数值不大,但说明了允许图像进行全局上下文感知的重要性。
这些看似细微的改进,累积起来共同构成了NEO强大的性能基础,验证了其架构设计的科学性与完备性。
🚀 六、价值与影响:重塑多模态AI的研发与应用
NEO的问世,其意义远不止于在排行榜上取得优异成绩。它为整个多模态AI领域的发展,带来了工程、应用和生态层面的深远影响。
6.1 工程价值:大幅降低多模态系统的“隐性成本”
对于开发者和企业而言,NEO最大的吸引力之一在于其架构的简洁性。
-
简化部署与维护:单一骨架模型彻底摆脱了管理多个独立大模型的噩梦。部署流程更简单,监控和版本迭代的负担也大大减轻。这对于追求敏捷开发和快速迭代的团队至关重要。
-
对资源更友好:由于参数复用度高,且无需额外的投影器,NEO在同等性能下,通常比模块化模型需要更少的计算资源和显存。这降低了高性能多模态AI的应用门槛,使得在边缘设备或资源受限的环境中部署成为可能。
-
打通未来扩展路径:NEO的统一架构为未来融合更多模态(如音频、视频、3D点云)提供了天然的、可扩展的接口。新增的模态可以被同样编码为token序列,无缝地接入到现有的Transformer骨架中,而无需为每一种新模态都设计一套复杂的“编码器+投影器”组合。
6.2 应用价值:赋能复杂场景的快速落地
NEO强大的原生多模态理解能力,使其在众多过去模块化VLM难以胜任的复杂场景中,具备了巨大的应用潜力。
|
应用领域 |
典型场景 |
NEO的优势 |
|---|---|---|
|
智能客服 |
用户发送包含错误截图、订单表格和文字描述的求助信息。 |
能够同时精准识别截图中的UI元素、读取表格数据,并结合用户文本进行综合分析,提供一步到位的解决方案。 |
|
教育辅导 |
学生拍摄数学题,题目包含几何图形、公式和文字描述。 |
在同一个推理链中,既能理解图形的几何关系,又能解析公式的数学含义,还能读懂题目的文字要求。 |
|
办公自动化 |
分析一份包含图表、图片和大量文本的商业报告。 |
无需将图表和文本割裂处理,能够直接回答“根据第三页的柱状图,哪个季度的销售额增长最快?”这类深度跨模态问题。 |
|
医疗影像 |
结合医学影像(如X光片)和对应的电子病历文本进行辅助诊断。 |
底层的像素-文本融合能力,有助于模型更精确地定位病灶,并将其与病历描述中的专业术语进行关联。 |
6.3 生态价值:从“原型证明”到“下一代基础模型”
NEO不仅是一个高性能的模型,更重要的是,它为社区提供了一种新的、可能成为主流的范式。
-
局限与展望:研究团队坦诚,受限于当前的训练数据和算力规模,NEO在一些极端的知识密集型任务(需要模型“背诵”大量事实)和重度OCR场景中,仍有提升空间。但这更多是数据和规模的问题,而非架构的根本缺陷。
-
未来的主流路线:随着计算资源的增长和更多高质量多模态数据(尤其是视频、长序列文档)的涌现,NEO所代表的原生统一架构,有望凭借其更高的效率和扩展性,成为下一代多模态基础模型的主流选择。
-
开放与创新:如果NEO的预缓冲模块和高效的训练配方能够开源,将极大地赋能整个社区。开发者可以基于此,快速构建和定制自己的原生VLM,加速在各个垂直领域的创新和应用落地,形成一个繁荣的新生态。
结论
NEO视觉语言模型的出现,标志着多模态AI领域一个重要转折点的到来。它以无可辩驳的实验结果和优雅的架构设计,证明了“原生统一”不仅是可行的,而且在性能、效率和可扩展性上,都可能优于沿用已久的“模块拼接”范式。
这不仅仅是一次技术的迭代,更是一场研发哲学的转变——从“分而治之”的集成思维,转向“万物同源”的统一思维。NEO通过其原生基元、原生位置编码和混合注意力机制,为我们展示了如何构建一个真正意义上的“多模态母语者”。
对于身处这个领域的工程师和研究者而言,NEO带来的启示是深远的。它不仅为我们提供了一个强大的新工具,更重要的是,它为我们思考和构建未来更通用、更智能的AI系统,打开了一扇全新的大门。
📢💻 【省心锐评】
NEO以原生统一架构终结了多模态AI的“胶水时代”。它用更少的资源、更简的工程实现了更强的性能,预示着下一代基础模型将从“模块拼接”走向“天生融合”,AI的“双语时代”已然来临。
更多推荐




所有评论(0)