2022-2025视觉编码器范式:离散型与连续型进展深度调研
多模态时代背景: 自2022年底ChatGPT掀起新一轮AI热潮以来,视觉-语言模型(VLM)和多模态大模型(MLLM)成为研究前沿,在图文对答、视觉推理等任务上取得显著进展[1]。这波进展源于Transformer架构跨模态的成功:Vision Transformer (ViT)将NLP中序列输入+Transformer编码器范式引入视觉领域,统一了CV与NLP的处理方式[2]。随后OpenAI
引言:ChatGPT时代的视觉编码范式革新
多模态时代背景: 自2022年底ChatGPT掀起新一轮AI热潮以来,视觉-语言模型(VLM)和多模态大模型(MLLM)成为研究前沿,在图文对答、视觉推理等任务上取得显著进展[1]。这波进展源于Transformer架构跨模态的成功:Vision Transformer (ViT)将NLP中序列输入+Transformer编码器范式引入视觉领域,统一了CV与NLP的处理方式[2]。随后OpenAI的CLIP等跨模态预训练模型进一步打通图像与语言表征鸿沟,奠定了现代多模态模型架构基础[2]。然而,最新研究表明,在涉及图像证据的复杂推理时,现有VLM的回答正确率与图像提供信息之间仍存在“持续且令人费解的差距”[3]。这凸显了获取高质量、可对齐的视觉表示的迫切需求。传统视觉编码器(如卷积网络或早期ViT)在将高维像素数据高效准确地转换为LLM可理解的Token序列时面临巨大挑战[3]。为此,研究者开始重新思考视觉编码范式——离散型编码与连续型编码逐渐成为关注焦点。
离散vs连续编码定义: 连续型编码器指以卷积网络或Transformer等直接输出连续向量表示的模型,每个图像输入映射为高维实值特征(如CNN特征图、ViT的patch嵌入等)。离散型编码器则在中间引入量化步骤,将连续特征映射为有限集合中的离散符号(离散代码/Token)。典型如VQ-VAE系列,在自编码器瓶颈层将连续隐向量替换为码本中最近的离散向量,从而输出离散代码索引序列[4][5]。这样的离散表示可看作图像的“词元”,使任意输入图像被表示为类似文本的整数Token序列[6]。离散编码器的引入为视觉表示提供了一种全新范式:将图像转换为离散语言,从而统一不同模态的数据形式和处理模式[6]。相比之下,连续表示不经过量化限制,保留更精细的数值信息。二者各有优劣:离散表示可能更稳定、语义明确,易于与语言模型对接,但信息容量受码本大小限制;连续表示保真度高、表达细腻,但直接建模连续空间的概率分布存在难题[7]。接下来,本报告将梳理ChatGPT发布(2022.11)以来离散型与连续型视觉编码在各主要视觉任务中的结构演进和趋势,并深入分析二者在训练稳定性、表达能力等方面的差异。此外,我们总结大型多模态模型中编码器类型的选择策略,最后附上涵盖相关论文的详尽表格,以全面覆盖近三年的文献进展。
不同视觉任务中的编码器演进趋势
图像生成(Image Generation)
早期连续隐变量与模糊问题: 图像生成模型曾长期受限于连续潜变量难以精确建模概率分布的问题。传统VAE直接将图像编码为连续向量并用L2损失重构像素,往往导致生成结果过于模糊[7]。这是因为神经网络虽是函数的万能拟合器,却非概率密度的万能拟合器,直接拟合连续空间的复杂分布本质上非常困难[7]。因此,GAN、流(Flow)、扩散模型等各显神通地迂回解决这一难题,而离散化是一条重要思路:对图像进行离散表示后,可通过Softmax轻松确保离散概率分布的规范性,从而避免连续建模时的模糊和不稳定[7]。
离散编码器兴起:VQ-VAE及其拓展: 2017年提出的VQ-VAE (Vector Quantized VAE) 是离散化范式的开山之作。其编码器输出连续隐向量后,使用一个码本(codebook)将其量化为离散代码,解码器据此重构图像[8][5]。离散化保证了生成时每个像素选择一个离散符号,避免了像素值平均化带来的模糊,同时将图像表示压缩为有限符号序列,允许后续用自回归语言模型在离散空间生成图像[6]。VQ-VAE证明离散隐变量可学习出稳定且可解释的特征表示,训练中通过Straight-Through Estimator解决了量化不可导的难题,使编码器梯度得以传播并确保量化误差受控[9][10]。随着离散表示展现威力,后续工作不断改进:VQ-VAE-2引入多层级码本(分层量化)捕获不同尺度细节,从而生成高保真图像[11];VQ-GAN采用感知损失及Transformer先验,大幅提升重构质量并支持高分辨率生成[12]。OpenAI的DALL·E (2021) 将离散编码用于文本生成图像任务:先训练dVAE离散编码器,将图像压缩为token序列,再训练Transformer从文本生成这些图像tokens,展示了离散表示在跨模态生成中的威力。离散编码器的成功表明,通过“VQ编码器+GPT解码”的范式,可以将图像生成转化为“生成离散符号序列”问题,实现图像与文本生成流程的统一[6]。
扩散模型与连续范式的反击: 尽管离散方法成绩斐然,扩散模型(Diffusion)的崛起为连续潜空间带来了新生命力。稳健扩散模型(如Latent Diffusion,即Stable Diffusion)采用连续自动编码器压缩图像到连续隐空间,再在该空间用迭代去噪生成图像[13]。这绕过了直接对高维像素分布建模的难题,通过逐步逼近数据分布实现高质量生成。2022年前后,扩散模型凭借生成逼真细节和稳定训练,成为图像生成的新主流,在ImageNet等基准上取得SOTA性能,甚至相比离散Transformer模型FID分数好出一大截[13][14]。例如,在256×256 ImageNet生成上,当时最佳离散Transformer模型FID为3.41,而扩散模型达到了1.79,优势显著[13][14]。由此,大部分工业应用(如Stable Diffusion、Imagen等)选用连续扩散范式,并用于文本引导的图像生成和编辑。连续隐表示的优势在于重构保真度高:自动编码器的连续latent可精准保留图像细节,扩散过程又逐步细化,使输出照片级逼真。同时连续latent空间易于做图像编辑:例如通过在扩散隐空间中注入噪声微调,可以实现图像局部编辑、风格变换等(如Prompt-to-Prompt、InstructPix2Pix等方法),这些操作在连续空间平滑可导,而若在离散token空间直接修改符号,往往造成不连贯的伪影。因此当前图像编辑任务几乎都建立在连续潜空间生成模型之上,利用扩散模型的隐空间对图像进行局部调控与重生成。
新趋势:大模型融合两范式: 进入2023年,业界开始探索离散符号+LLM的新型生成范式,希望结合离散表示的统一性与LLM的强大生成能力。一方面,Google提出了Parti等超大规模离散生成模型:先训练图像离散tokenizer,再用数十亿参数Transformer从文本生成图像token序列,已展示出接近扩散模型的逼真度和多样性。另一方面,更具突破性的新研究表明,在具备优秀离散视觉Tokenizer的前提下,大语言模型(LLM)在图像生成上可与甚至超越扩散模型:Google最新的MAGVIT-v2通过改进视频离散编码器,使其生成的图像/视频token更精练,在同等数据和模型规模下,让一个掩码语言模型的生成质量和效率全面超过了最先进扩散模型[15][16]。这是首次有证据表明在ImageNet等严苛基准上,基于离散tokens的语言模型能够击败连续扩散模型[16]。MAGVIT-v2的成功归功于两个关键:大规模词汇量的离散编码(提出了无需查表的量化方法,扩充码本至数万规模以提升表示能力)[17][18];以及充分利用LLM的优化优势,将图像生成等同于“生成离散词”的过程,继承了成熟的快速训练、推理加速技巧和大规模模型调优配方[19]。这种范式下,视觉和语言完全在同一离散token空间中建模,为真正通用的多模态生成奠定了基础[19][20]。总的来看,图像生成领域正呈现“双轨并进”趋势:连续扩散模型仍凭借卓越细节保持主流,而离散token方案在融合LLM后后劲十足,有望在通用性和效率上实现超越。未来可能的方向是结合二者所长,例如利用LLM生成初始草图tokens再经扩散模型精炼,或发展更强的离散编码器以彻底替代连续扩散。
图像压缩(Image Compression)
图像压缩任务与生成密切相关,也受离散/连续范式之争的影响。传统学习式压缩方法多采用连续隐变量配合量化近似:即用自动编码器将图像编码为连续向量,再对向量进行均匀量化或加噪近似,以便熵编码保存。其中Ballé等人的算术编码器架构和后续的拟合先验(hyperprior)方法是代表,它们在不引入显式码本的情况下,通过训练让连续latent尽可能接近易量化的分布,从而实现高效压缩。然而,这类连续方法通常需要复杂的概率建模和注意精细的码率-失真权衡。
离散表示在压缩中的应用近年来也获得长足进展。VQ-VAE本身就可视为一种学习式编解码器:其离散码本索引序列即可作为图像“压缩包”,解码器则充当“解码器”重建近似图像。离散压缩的优势在于天然适配现有数字通信——图像被转换为离散符号序列后,可直接用少量bit表示每个符号的索引。为改进离散压缩效果,研究者尝试增加码本大小和分层量化以提升重构质量,同时降低码率。例如残差量化VAE(RQ-VAE)通过多级码本逐步逼近原始向量,等价于构建更大的代码字。此外,不同于连续方法需要附加熵模型预测每个latent的分布以编码,离散方法只需保证码字索引满足一定统计分布即可。最新成果表明,高质量的离散视觉标记不仅能用于生成,还能兼顾压缩性能。MAGVIT系列工作将离散token作为一种通用视频/图像压缩格式,在人眼评价中,其视频压缩质量已超越传统H.265 (HEVC)标准,并与新一代编解码标准H.266 (VVC)相当[21]。值得注意的是,这里的离散tokens不仅在码率上有效压缩数据,还具备直接供生成模型使用的优势:无需解码回像素即可被模型读取,从而省去解压再编码的冗余步骤[22][23]。例如在边缘设备上,传输离散tokens比传输像素更高效,并可直接用于下游生成或识别任务。这种“一石二鸟”的特性使得离散编码在多媒体通信中前景广阔。当然,目前离散压缩也面临挑战:码本过大会增加存储开销,过小又损失质量;如何自适应不同图像内容选择最优码字也是开放问题。总的来说,连续压缩方法成熟稳健,在逐帧重构误差上往往更低,而离散压缩正在借助生成建模的力量赶超,在超低码率和任务兼容性方面展现独特优势。
图像识别与理解(Recognition & Understanding)
连续卷积与视觉Transformer主导识别: 在图像分类、识别、检测等理解任务中,历史上清一色采用连续型编码器。典型如ResNet系列卷积网络,将图像映射为连续特征图用于分类;Vision Transformer则将图像划分patch,送入Transformer编码层得到连续embedding序列用于判别。这类连续表示直接保留了图像的丰富信息和细粒度差异,也是目前绝大多数视觉理解模型(分类器、检测器、分割模型等)的基础。在有监督训练下,连续表征可以逐层提取出稳定的判别特征,无需离散化瓶颈。相比之下,离散编码在传统识别中较少出现,因为将图像硬划分为有限符号可能丢失过多细节,不利于精细辨别。例如分类任务要求区分物种细微差异,离散码本若无法涵盖这些差异将降低准确率。因此,直到2022年前,主流识别框架仍以卷积/Transformer连续特征为核心。
自监督预训练中的离散vs连续: 值得关注的是,在无监督视觉表示学习兴起后,一些工作开始探索离散表示的潜力。Masked Image Modeling (MIM)是视觉界受BERT启发的预训练方法,其核心在于遮挡部分图像然后训练模型重建。这一框架下,出现了两大分支:一是以MAE为代表的连续重建派,直接让模型预测被遮挡区域的像素值(或低级特征);二是以BEiT为代表的离散Token派,先用一个预训练好的离散编码器将图像块表示为离散码(即“视觉词表”),然后让模型预测被遮挡块对应的离散Token。BEiT (2021)的成功证明了离散视觉词表可引入更高层的语义监督信号:相比像素值重建,预测一个Token ID更像是让模型理解该patch属于哪种语义模式[24]。然而,BEiT最初使用DALL·E提供的dVAE码本,其离散Token分辨力有限,导致模型学到的特征语义不够丰富。在后续实验中,研究者惊奇地发现:简单像素重建的MAE在许多下游任务上性能反而优于使用dVAE离散码的BEiT[25]。这是因为BEiT的码本训练目标偏像素重建,本身并未确保码字具有高语义性,反而引入了量化误差。为此,后续工作致力于改进视觉Tokenizer:微软提出BEiT-2,用CLIP模型的图像特征指导训练码本(VQ-KD),使离散Token承载更语义的信息[24];北大提出PeCo,则利用预训练卷积特征聚类生成码本,提高了Token对语义的感知度。实验表明,这些精心设计的离散Token可以明显提升MIM效果,甚至超越纯连续重建方法。例如PeCo方法在ImageNet上取得比MAE更高的线性评估精度[26]。最新的理论分析工作也深入揭示了离散Token对表征学习的作用:2024年ICLR的一篇研究通过图论视角证明,合理的离散分组可增强同类样本的连接性、削弱异类干扰,从而提升下游性能[27][28]。他们提出的ClusterMIM利用聚类生成Token,在多个数据集上均显著优于直接像素重建的MAE[29]。这些结果印证了离散表示在自监督领域的价值:离散编码引入的信息瓶颈若设计得当,反而能提炼关键特征,增强表征的语义聚合性和鲁棒性[27]。不过如果设计不当(如初版BEiT的码本),离散约束可能变成桎梏,造成信息缺失。因此当下趋势是在连续特征与离散语义之间寻找最佳平衡,例如有工作探索先提取连续特征,再做分层离散化以逐级编码不同层次信息。
任务粒度差异: 在高精度要求的视觉理解任务中(如医学影像识别、精细分类),连续编码器目前仍是不二选择,其高分辨率特征能保留全部细节供下游决策。而在需要概念提取或跨图像一致性的场景下,离散表示展现优势。例如对大规模图片聚类检索,离散表示可以将视觉模式归类,提高检索效率和鲁棒性;又如零样本识别中,将图像映射为离散语义标签(类似一种自适应词典)可能比连续向量更易于人理解和模型使用。总之,识别与理解领域当前仍以连续编码为主,但离散范式正作为辅助或预训练手段逐渐融入,未来二者或将结合:先用连续编码捕获细节,再用离散单元摘要全局语义,从而兼顾微观精度与宏观语义。
图像编辑(Image Editing)
图像编辑通常指对已有图像进行修改、重构,如图像修复(inpainting)、属性编辑、风格迁移等。连续潜空间在该领域占据主导地位,因为编辑往往要求对图像局部细节进行平滑控制。以扩散模型为基础的编辑方法是近期热点:例如Stable Diffusion的噪声条件重建可用于局部涂抹后重生(inpainting);基于Diffusion的Prompt-to-Prompt方法通过修改内部注意力逐步调整生成图像,与源图保持内容一致;InstructPix2Pix通过在扩散模型上微调指导,实现根据文本指令对图像进行修改。这些方法倚赖连续特征空间的可微性:在连续隐变量上添加微小扰动会导致图像输出平滑变化,从而实现精细编辑。这种连续空间的可插值性和梯度友好使得优化算法(如基于梯度的反向传播、潜变量插值)在编辑任务中如鱼得水。相反,离散表示用于编辑的研究较少。如果将图像离散为tokens序列,直接修改某些token可能引发全局不一致,例如替换一个码字可能导致局部块与周围区域格格不入,出现明显边界伪影。此外,离散空间不易直接应用梯度优化(因为符号不可导),难以像连续latent那样通过梯度下降找到细微的编辑方案。尽管可以考虑近似离散空间的梯度(比如直通估计器)或通过逐符号搜索实现编辑,但这些过程要么不够精细平滑、要么计算代价高。因此当前主流的方法是在连续领域编辑后再转回离散表示(若最终需要离散编码)。例如,有人提出先将图像解码到连续latent进行编辑,再重新编码为离散tokens确保结果质量。总体而言,连续编码器赋予图像编辑更大的灵活性和精度,满足像素级调整需求;离散编码则暂未在高分辨编辑中展现优势。不过,在某些语义级编辑任务上,离散单元或有用武之地——例如把图像分割成语义区域token,编辑时只需修改高层语义token即可达到粗粒度效果(类似拼图替换场景)。随着离散表征精度提升,将来可能实现“所见即所得”的符号级图像编辑,但目前仍处于探索阶段。短期来看,图像编辑将继续依托连续潜空间方法,同时借鉴离散表示的分块思想来改进编辑的可控粒度。
多模态建模(Vision-Language Multimodal Modeling)
多模态建模要求模型同时处理视觉和文本等不同模态信息。这里视觉编码器的选择至关重要,直接决定了图像信息如何提供给语言模型。近年来出现两大范式:
1. 连续特征对接语言模型: 这是一种“编码-对齐”思路,即使用预训练的连续视觉编码器提取图像特征向量,再经过投射对齐后,供给文本生成模型使用。典型如OpenAI的CLIP模型先以对比学习让图像Encoder(ViT/BiT等)和文本Encoder学到共同连续语义空间[2]。在此基础上,许多视觉问答或图文对话模型采用CLIP的图像encoder产生连续embedding,然后附加适配模块将其融合进语言模型。例如DeepMind的Flamingo在冻结的语言模型中插入门控跨注意力层,接收CNN/ViT提取的图像embedding,实现图文对话[30][31]。又如BLIP-2的两阶段方案:第一阶段用ViT提取图像连续特征,第二阶段训练一个Query Transformer将这些特征压缩为若干向量,然后作为“视觉提示”输入预训练语言模型[32][33]。LLaVA、Mini-GPT4等开源多模态聊天模型也遵循类似思路:使用现成的ViT或Detectron2编码图像,再将连续特征通过投影层接入语言模型Embedding或中间层。连续融合范式的优势在于充分利用成熟的视觉模型,无需重新学习视觉表示;并且连续特征保留图像丰富信息,有助于模型理解复杂场景细节。此外,不同模态保持各自Encoder,相对灵活:图像Encoder可以单独预训优化,文本模型也可独立调优,通过一个小模块实现跨模态耦合。这种架构已成功催生一批多模态大模型,例如GPT-4的视觉版据报道采用了一种ViT变体作为图像编码前端,将图像编码为若干连续向量,再与Transformer解码器交互,从而具备复杂的视觉推理能力[30][31]。连续对接策略的劣势在于模态之间存在割裂:图像特征只是作为额外输入,并非与文本在同一形式上处理。这可能限制模型对图像细节的表达(因为语言模型未必完全消化连续向量中的所有信息)。同时,为每种新模态设计适配模块增加了模型复杂度。
2. 离散Token统一建模: 为了实现真正的多模态“同源”建模,另一条思路是将图像内容离散表示为类似文本的token序列,直接与文本拼接后一同输入大型Transformer模型。这样,模型无须区分图像/文本,两种模态数据形式上完全一致。微软在2022年提出的BEiT-3就有“Image as a Foreign Language”之称,部分体现了这一想法:它通过共享Transformer对图像patch和文本token同时进行掩码建模预训练,证明了一定程度的模态统一。然而真正明确采用离散视觉Tokenizer的是一些最新工作。例如ICLR 2024接收的LaVIT模型,设计了一个动态视觉分词器,将任意图像编码为长度可变的离散token序列,每个token对应图像中有意义的语义“单词”[34][35]。在此基础上,LaVIT使用单一Transformer实现图文混合生成:输入可以是图像token+文本token序列,输出同样可以是图像或文本,从而做到视觉和语言信息的统一理解与生成[35][36]。与之相似的还有更早一些的工作:如OpenAI最初的DALL·E把图像离散为token用于文本到图像生成;又如Meta的“画像语言模型”Project(如ALIGN、Kosmos的早期设想)也尝试定义图像离散词表,与文本词表拼接训练Transformer。不过,实现图像离散 token统一并非易事:需要高容量码本以覆盖海量视觉概念,又要保证生成序列长度可控。LaVIT的方案是动态长度:图像复杂则产生更多token,简单则少产出,从而避免统一长度填充带来的低效[37]。这种离散统一范式的优势显而易见:模型可以直接复用NLP中积累的大规模Transformer架构和优化经验,将视觉问题转化为“文本生成”问题[19]。训练和推理时,面对图文混合序列与纯文本几乎无异,所有算力调优手段皆可套用[38]。同时,模型获得了跨模态的生成能力:例如可以让模型读图后输出文字描述,甚至输出图像token实现以图生图或图像续写,这在连续对接范式下难以直接实现。最近Google提出的LM生成图像超过扩散的研究[15]亦属此思路的胜利——视觉信息完全以离散词形式融入LLM,其生成、推理机制与语言无异,真正做到跨模态端到端统一。当然,离散统一也有短板:离散化难免损失一些视觉细节,对于精细视觉任务(如像素级定位)可能力有不逮;此外,将庞大的视觉信息塞入一长串token,对模型位置编码、长序列建模能力提出更高要求(如Kosmos-1被报道受限于2048长度窗口,难以编码高分辨图像细节[39])。尽管如此,这一方向代表了迈向“通用多模态模型”的重要一步。
小结: 多模态建模中,连续编码对接范式当前在诸多实用系统中表现良好,原因在于它充分利用了现有视觉主干网络的强大能力和预训练成果(如CLIP提供了绝佳的跨模态对齐特征[2])。反之,离散统一范式虽然要求从零学习视觉词表和模型,但长远看有望产出“单模态般”精通视觉和语言的统一模型,具备同时生成图文的能力。这两条路线各有所长:前者见效快,易融合到已有LLM框架中(正如许多视觉聊天机器人所做的);后者潜力大,在理论上可以达到模态无关的通用智能。近期的大模型如GPT-4据推测仍采用连续视觉编码器作为子模块,这是在工程上稳妥的选择;而科研界不断涌现的LaVIT、Unified-IO等则在尝试更大胆的离散统一。未来我们可能会看到两种范式的融合:例如模型先用连续视觉编码器提取特征,再将高层语义离散化为token供LLM处理,既保留细节又统一表示。多模态AI的终极形态或许需要兼顾人类语言符号和感知连续信号的优点,合理结合离散与连续编码的策略。
离散型 vs 连续型编码器深度比较:训练策略、稳定性与表达能力
训练策略与难点: 离散和连续编码器在训练过程中有显著不同挑战。连续型编码器(如普通卷积网、Transformer)训练相对直接,误差通过标准反向传播更新权重。但用于生成任务时,连续隐空间经常遇到梯度优化困境,例如VAE中出现后验塌陷(posterior collapse)现象:编码器输出趋于零信息导致解码器无法生成清晰样本。这源于连续隐变量缺乏强约束,优化过程中模型可能走捷径忽略latent(例如KL散度权重设置不当)。扩散模型通过设计特定逐步预测目标稳定了训练,但也付出高计算代价。相比之下,离散型编码器因为有非可导的量化操作,在训练时反而需要特殊策略。VQ-VAE的突破在于利用Straight-Through Estimator (STE)手段:前向计算中对latent取最近码字,反向梯度则绕过argmin直接传给未经量化的encoder输出[9]。同时加入承诺损失(commitment loss)约束编码器输出靠近码本向量,以稳定优化[10]。这些策略成功训练了离散编码器,但也增添了超参数和复杂性,一旦权衡不佳可能出现码本塌陷(大量码字未被使用,模型只用少数码字表达所有输入)。近期的FSQ方法表明,甚至可以完全省却码本学习,只通过对连续向量逐元素四舍五入这种极简方式离散化,同样实现高质量重构和稳定训练[40]。FSQ的成功佐证了一点:过于复杂的量化loss可能并非必须,简单明确的量化过程(如逐量纲标量量化)有时更利于梯度优化[40]。总的来说,离散编码器训练难点在于量化非导和码本更新,需借助STE、Gumbel-Softmax近似或特殊loss来指导;而连续编码器难点在于目标设计,特别是生成任务需要避免直接像素回归导致的收敛模糊[41]。各有侧重。
表示稳定性: 离散与连续表示在稳定性上也体现出差异。离散表示因取自有限集合,具有固化特征模式的效果:同一code对应一类相似输入,无论输入微小扰动如何,编码结果要么保持原码字不变,要么跳变到另一码字。这种量化的鲁棒性在某些情况下是优点——抵抗了输入噪声带来的表征抖动,使表示更稳定离散、利于下游决策。例如,对同一物体轻微形变后的图片,离散编码器可能产生同样的Token,从而模型下游处理时自动聚合同类[27]。这在连续表示中则需要模型自身去学习对扰动的不变性。而连续表示输出受输入微扰线性影响,虽然对细节变化敏感但也意味着插值平滑:小幅度输入变化只会引起小幅度特征变化,不会突然跳变。这种连续性的好处是输出对输入的依赖关系较易建模(尤其在回归任务中避免离散跳变带来的不连贯),且支持表示的精细调节(如在latent空间插值两图像,连续表示能逐步过渡,离散表示则往往骤然变码)。因此,稳定性取决于任务:分类等需要鲁棒摘要的任务,离散分桶提供了类内稳定、类间分离的特性[27];而像素级重建等任务,连续表示的逐级可调性则更合适以确保输出逼真连续。
表达能力与语义层次: 连续编码器的向量空间原则上是无穷可分的,具有极高的表达自由度——它能表示输入中任何细微差别,只要模型有足够容量。在大数据上训练的连续编码器(如CLIP的ViT-L/14)甚至能学习到跨模态对齐的丰富概念空间[2]。但过高的自由度也意味着缺少内在结构,模型可能将微小噪声也表示为不同向量,从而需要更多数据和正则来学到概念不变性。离散编码器通过有限码本强制信息瓶颈,在表达精细度上有所牺牲,但却引入了语义层次。直观地,码本向量往往各自代表一种模式的“原型”,类似视觉词汇:例如一种纹理、一个部位或某类物体。离散编码器输出的序列其实是对输入的分块概念化。这使其在高层语义表达上更为直接:模型可以通过符号频次、组合来捕捉模式,而不必关心具体连续值细节。这一点在BEiT与MAE的比较中已有体现——BEiT的目标是让模型预测每个patch所属的语义词,虽然没有像素精度,但督促模型关注更抽象的概念[24]。因此离散表示往往语义更浓缩:比如图像中一片天空区域,无论具体像素有多少变化,都可能映射为同一个“天空”Token。这对下游任务(如检测天空)是有利的。然而反之,如果任务需要精确定位差异(如分割边界),离散化会损失边缘位置的精度信息。由此可见,连续-离散在表达上形成一对关键权衡:一个偏重细节保真与连续可分性,另一个偏重概念提炼与离散归纳。二者的表达能力在一定条件下可以互补:足够大的码本和层级离散能够逼近连续空间(极端情况下码本无限大即连续);反过来,连续空间通过聚类或正则也能形成离散簇的效果。MAGVIT-v2中采用的超大码本+改进量化就是希望兼得鱼与熊掌,在离散的前提下扩大表达容量[17][18]。结果表明大码本确实提升了生成质量,可见离散表示的表达瓶颈可以用更高维的嵌入词典来缓解[18]。另一方面,一些研究也发现将连续特征软离散化为几组子空间(如产品量化PQ)能同时获得紧致表示和较强重构能力。这提示未来可能不再泾渭分明地二选一,而是混合范式:如连续编码器输出后接一级离散符号用于语义概括,同时保留剩余连续细分信号以维护细节。总而言之,在表达力方面,连续编码提供了精细连续谱,离散编码强调抽象符号化,如何根据任务需求选择或融合两者,是设计视觉模型时需要深思的问题。
模型规模与优化差异: 还有一些差异体现于大模型训练的实际工程中。离散token化的方案有一个显著优势:可以直接利用NLP领域发展成熟的高效Transformer实现大规模并行训练和推理加速[19]。语言模型领域的各种优化(自回归并行化、缓存、稀疏注意力等)都能迁移到离散视觉token序列的处理上。这使得当视觉任务转化为类似文本的问题后,训练超大模型反而更容易。例如生成领域,用Transformer生成离散图像tokens相比扩散模型逐步生成像素,具有潜在的速度优势(MaskGIT等工作已验证了离散并行生成的高效)。另外,在多模态统一模型中,引入离散token使单模型处理多模态成为可能,资源开销也更低(一个模型替代原本图像encoder+文本LM两个模型)。相反,连续特征方案常需要单独的视觉主干网络,其参数量和推理成本与语言模型相当甚至更高,整个多模态系统参数膨胀,训练需小心均衡两部分的学习率和收敛。并且由于连续特征无法用简洁的Softmax概率输出,想让语言模型“生成连续图像特征”几乎不可行,这限制了连续方案在多模态生成上的能力(通常只能理解不能生成图像)。因此在注重统一建模与高效扩展的设置下,离散编码更具吸引力;而在注重充分利用预训组件或高保真重建的场景下,连续编码仍是可靠的选择。
大模型实践中的编码器类型选择及原因分析
大规模视觉或多模态模型的设计往往需要在离散与连续编码范式中进行权衡选择。下面总结若干典型模型的编码器类型及其选择依据:
-
OpenAI GPT-4 (2023):据公开信息,GPT-4的多模态版采用了一个连续型的Vision Transformer作为图像编码模块,将图像转为固定长度的向量序列,再输入到语言模型中。这种架构选择主要因为OpenAI拥有强大的ViT预训练能力(如CLIP经验),使用连续表示可以最大程度保留图像细节供GPT-4理解。同时,不需改变GPT架构,仅添加一段图像前端,工程实现上更为稳妥。连续编码器输出直接作为“前置提示”喂给Transformer解码器,实现了不错的视觉理解和推理能力。例如GPT-4能够读图回答复杂问题,很大程度上归功于ViT编码器提取的高质量连续特征。选择连续编码也避免了额外训练一个视觉词典的麻烦,在GPT-4训练规模(万亿Token级别)下,这是较为实际的方案。缺点是GPT-4尚不能产出图像,因为连续特征不方便用解码器生成,仅能用于理解。
-
DeepMind Flamingo (2022):Flamingo是将一个预训练的语言模型(Chinchilla等)与一个预训练视觉编码器(如NFNet或ViT)通过跨注意力层结合的架构。其图像编码器选择了连续卷积/ViT,原因在于方便利用冻结的预训练视觉特征,然后只训练连接部分就实现图文融合[30][31]。这种连续对接方案在少样本学习中表现出色:Flamingo能在给定几幅示例图的情况下进行开放领域的视觉问答和描述。选择连续编码器使Flamingo能够立即借力成熟的视觉模型(无需从头训练视觉Tokenizer),大幅减少训练时间和数据需求。然而,由于使用连续特征,Flamingo的生成端仍然局限于文本,无法原生地产出图像。
-
Microsoft Kosmos-1 (2023):Kosmos-1是早期探索多模态LLM的模型之一。根据其论文,Kosmos-1采用的是CLIP ViT-L/14作为图像编码器提取连续embedding,然后经过一层映射进入Transformer解码器[42][30]。最初有猜测认为Kosmos会将图像离散为特殊tokens插入序列,但实际上它延续了连续对齐思路。在1.6B参数规模下,使用预训练CLIP特征有利于模型快速收敛并达到不错性能,如具备基本的视觉问答和文字生成描述能力[43]。选择连续型的原因还包括:当时高质量离散Tokenizer尚不成熟,引入离散可能反而拖累模型效果;同时Magneto架构Transformer善于处理embedding输入。Kosmos-1的限制在于仅能处理2048长度序列,图像embedding占用部分长度,对高细节图像支持有限[39]。总体而言,微软在Kosmos-1上倾向稳健的连续特征方案,保证模型基础功能。
-
Microsoft BEiT-3 (2022):作为通用多模态基础模型,BEiT-3的设计体现了离散与连续的融合。它采用一个多路Transformer,能够接受图像patch和文本token作为输入。图像patch部分既可以视为连续(像ViT一样的浮点embedding),也可以看作来自某种词典的离散索引(因为BEiT-3延续了BEiT理念,将图像视作“外语”来处理)。实际上,BEiT-3预训练时用了包括图像/文本的掩码预测任务,其中图像的目标并非像素,而是高层语义标签或离散单元[24]。可以理解为,BEiT-3选择了一种间接离散的编码器:输入还是连续patch嵌入,但训练目标逼使模型将其表示对齐到离散语义空间(如词汇或概念)。这使BEiT-3在下游任务中表现出色,在纯视觉和跨模态任务上都取得SOTA[44]。其选择依据在于,完全连续的MAE虽然简单,但语义理解不足,而完全离散又难以覆盖复杂视觉信息,于是采用语义离散指导下的连续编码来两全其美。该模型证明了融合范式的有效:在编码器架构上沿用ViT连续表示,在训练目标上引入离散语义监督,从而达到统一多模态表征的效果。
-
Google PaLM-E (2023):PaLM-E是将大型语言模型和强大的视觉模型结合用于机器人规划的尝试。其视觉编码器用的是连续ViT-G/14图像模型(即Section Adaptive CLIP模型),输出高维连续特征后,再通过线性投影接入文本模型。PaLM-E选择连续编码完全是出于性能和可靠性考虑:ViT-G是当时最强的图像Transformer之一,直接提供了卓越的视觉理解能力;采用连续embedding确保了机器人场景中精细信息(如物体位置、环境细节)不会被量化丢失。此外,PaLM-E是以现有语言模型PaLM为基础做插接,多模态训练数据相对有限,在这种情况下,不宜冒险引入全新离散成分。结果PaLM-E展现了复杂跨模态推理(如根据视觉输入规划行动)的能力,验证了连续编码器+LLM的实用性。其局限亦很明显:模型参数巨大(超过百亿)且多模态训练难度高,尚没有图像生成能力。
-
各类文本生成图像模型: 在跨模态文生图(Text-to-Image)任务中,不同团队对编码器类型的选择反映了权衡。OpenAI的DALL·E 2(2022)将CLIP图像encoder和扩散解码器结合,走的是连续embedding路线:先由CLIP文本嵌入预测扩散隐空间,然后由连续解码器生成图像。这延续了他们将连续特征用于保持图像质量的思路。而Google的两套方案中,Imagen采用纯连续(扩散逐级生成像素/隐latent),Parti则完全离散(将图像token化后用序列模型生成)。Imagen在感知质量上曾领先,但Parti通过极大模型和数据也逼近了SOTA,同时具备了更灵活的序列生成优势。百度的ERNIE-ViLG系列和CogView系列采用了类似Parti的离散方案,以中文场景下取得很好的生成效果。选择离散的原因在于可以利用海量文本-图像对来训练一个Transformer,充分借鉴语言模型的扩展性;而选择连续(扩散)的团队则看重模型在高分辨率细节和易于引导控制上的表现。随着DALL·E 3等新一代模型出现,一种混合趋势开始显现:据推测,OpenAI可能使用GPT-4先生成隐形式提示或布局,然后仍通过扩散模型绘制图像,这等于将LLM的符号规划能力与连续生成的视觉渲染能力结合。在文生图领域,“连续渲染+离散规划”或将成为新的折中方案,以充分发挥各自所长。
-
Meta Segment Anything (SAM, 2023):SAM是一个可对任意图像进行分割的大模型,它采用了一个连续ViT作为图像编码器(ViT-Huge级别),将整幅图像编码为高分辨特征图。之所以必然选择连续编码,是由于像素级任务需要完整细节:假如用离散token表示整个图像,很难保证每个像素的精确边界信息不丢失,而连续特征图可以逐层保留位置和细节。SAM的结果证明,一个足够强的连续视觉编码器配合简单的掩码解码器,就能在大规模数据上学习到通用的分割能力。这也提示我们,对定位敏感的视觉任务(分割、关键点检测等),连续型Encoder依旧是无可替代的选择,其输出的特征map可直接用于细粒度的空间解析。
综上所述,大模型的实践表明编码器类型的抉择没有万能标准,而是取决于模型定位和可用资源:
-
当追求跨模态统一和生成通用性时,倾向于离散编码器,以便利用语言模型的强大序列建模能力(如LaVIT这类统一模型,或Parti这类序列生成模型)。这在需要图像与文本对等输出的场景下尤为重要。离散token使模型能够像处理句子一样处理图像,为多模态内容生成铺平道路[34][19]。
-
当追求单模态极致性能或细节时,多采用连续编码器。特别是像素细节和空间精度要求高的任务(高分辨率生成、精密检测等),连续表示确保信息不受量化损失。像Stable Diffusion、SAM等模型无不仰赖连续latent取得领先性能。
-
当希望快速集成已有模型时,会优先连续方案。例如使用预训练CNN/ViT与预训练LLM组合,比训练一个全新Tokenizer要省时省力。很多多模态产品化原型(Visual ChatGPT等)都采用这种策略,缩短开发周期。
-
当计算资源和数据充足,又期望长远通用时,可以尝试更具野心的离散统一范式。例如大型科技公司在探索具备图文生成、推理综合能力的通用助手型模型,这种情况下愿意投入资源从零训练Tokenizer与模型,使其在统一空间内学习。这方面的研究有望打破模态边界,实现更深层的多模态理解与推理。
需要指出的是,许多最新模型选择将连续与离散结合:既使用连续编码器保证底层细节,又在高层输出或目标上引入离散语义监督,以兼顾两端优势。这种折中思路在近年来多篇工作中展现了效果(如BEiT-2/3、MAGVIT-v2等均属于此类混合策略)。因此,编码器类型并非绝对对立,而更像频谱两端,可以在设计中灵活调节拿捏。
展望未来,随着视觉任务难度提升和多模态需求增加,我们可能会看到分层编码器架构的普及:底层采用连续卷积/Transformer捕获精细结构,中层量化为离散token提炼语义,上层再结合语言模型处理符号序列,最后需要图像输出时再由连续解码器渲染。这样的体系或许能让AI既“看得清楚”又“想得明白”,真正实现视觉信号到语言符号的圆融贯通。
离散/连续编码器相关论文汇总
下表汇总了2022年11月至2025年11月期间涉及视觉领域离散或连续编码器的主要模型和论文,包括发布时间、作者、模型架构、关键技术、所用编码器类型及适用任务等信息,以供参考和完整覆盖文献进展:
|
论文标题/模型 |
发布时间 |
作者(第一等) |
模型/架构特点 |
关键技术细节 |
编码器类型 |
适用任务 |
|
Neural Discrete Representation Learning <br>(VQ-VAE)[45] |
2017 NeurIPS |
van den Oord 等 |
VQ-VAE 自编码器架构 |
引入向量量化码本,将连续隐向量离散为有限码字;STE传梯度[9] |
离散 |
图像生成、自监督表示 |
|
VQ-VAE-2: High-Fidelity Images with Hierarchical VQ[11] |
2019 NeurIPS |
Razavi 等 |
层次化VQ-VAE(多级码本) |
分级量化三个隐层捕获不同尺度信息,大幅提升生成图像细节 |
离散 |
图像生成 |
|
Taming Transformers for High-Res Image Synthesis <br>(VQ-GAN)[12] |
2021 CVPR |
Esser 等 |
VQ-GAN + Transformer先验 |
VQ码本结合感知重构损失,Transformer建模码字序列,提高高分辨率生成质量 |
离散 |
图像生成、图像重建 |
|
Zero-Shot Text-to-Image Generation <br>(DALL·E) |
2021 ICML |
Ramesh 等 |
离散VAE + Transformer文本生成图像 |
训练dVAE将图像token化为8192码字,GPT模型从文本生成图像Token序列,实现文本到图像创作 |
离散 |
文生图生成 |
|
BEiT: BERT Pre-Training of Image Transformers[24] |
2022 ICLR |
Bao 等 |
ViT编码 + 离散视觉词典掩码模型 |
利用预训练dVAE提供的8192个视觉Token作为预测目标,首次将BERT式掩码预测引入视觉[24] |
离散 |
自监督表示学习 |
|
MAE: Masked Autoencoders Are Scalable Vision Learners |
2022 CVPR |
He 等 |
ViT编码 + 图像块高遮盖重建 |
遮住75%图像patch,仅预测像素值,简单架构下取得优秀结果,证明高遮盖下连续重建有效[46] |
连续 |
自监督表示学习 |
|
SimMIM: A Simple Framework for Masked Image Modeling |
2022 CVPR |
Xie 等 |
ViT编码 + 像素回归掩码预测 |
提出简洁MIM基线,直接用均方误差预测被遮盖像素,证明无需复杂设计亦可学到良好特征 |
连续 |
自监督表示学习 |
|
PeCo: Perceptual Codebook for Visual Pre-training |
2022 ICCV |
Dong 等 |
CNN编码 + 感知特征聚类码本 |
基于高层卷积特征聚类生成视觉码本作为掩码重建目标,提高语义一致性,显著优于原始BEiT |
离散 |
自监督表示学习 |
|
MaskFeat: Masked Feature Prediction |
2022 CVPR |
Wei 等 |
ViT编码 + HOG特征预测 |
探索预测HOG特征(手工特征)代替像素,提高模型对结构信息的学习,属连续重建范式一支[26] |
连续 |
自监督表示学习 |
|
MaskGIT: Masked Generative Image Transformer |
2022 CVPR |
Chang 等 |
VQGAN编码 + 并行Mask预测Transformer |
使用离散码本表示图像,采用BERT式掩码并行生成而非自回归,提高图像生成速度,实现接近扩散模型的质量 |
离散 |
图像生成 |
|
Parti: Pathways Autoregressive Text-to-Image |
2022 arXiv |
Yu 等 (Google) |
ViT-VQ编码 + 超大Transformer |
将图像离散为数百个Token,大模型从文本逐词生成图像Token序列,在10亿级参数和海量数据下生成照片级图像 |
离散 |
文生图生成 |
|
Stable Diffusion (Latent Diffusion Models)[13] |
2022 CVPR |
Rombach 等 |
连续VAE编码 + U-Net扩散模型 |
用连续autoencoder将图像压缩至latent,再在latent空间扩散生成,实现高效高分辨率生成[13] |
连续 |
文生图生成、图像编辑 |
|
CLIP: Contrastive Language-Image Pretraining |
2021 ICML |
Radford 等 |
双流(图像CNN+文本Transformer) |
将图像和文本分别编码为连续向量,通过对比学习对齐两模态空间,实现开放域零样本识别[2] |
连续 |
图像理解、跨模态检索 |
|
Flamingo: Visual Language Model with Context |
2022 arXiv |
Alayrac 等 (DM) |
冻结语言Transformer+视觉编码跨注意 |
视觉编码用CNN/ViT连续特征,经过门控注意力注入LLM,实现少样本图文对话,首创图像嵌入与LLM融合结构 |
连续 |
图像描述、视觉QA |
|
Kosmos-1: Multimodal Large Language Model |
2023 arXiv |
Huang 等 (MSR) |
Transformer解码器+连续视觉编码 |
使用CLIP ViT提取图像embedding并融合文本序列,从零训练1.6B参数模型,实现图文对话、分类等多模态任务[47] |
连续 |
多模态理解与生成 |
|
GPT-4 (Vision) |
2023 OpenAI |
OpenAI |
GPT-4架构+ViT视觉编码模块 |
在GPT-4中嵌入一个ViT模型,将图像编码为一系列连续embedding,再经Transformer解码回答,实现复杂视觉推理 |
连续 |
图像理解、推理 |
|
BLIP-2: Bootstrapping Language-Image Pre-training |
2023 arXiv |
Li 等 (Salesforce) |
ViT图像编码+Query Transformer+LM |
用ViT提取图像连续特征,训练小型查询Transformer将图像信息提炼为少量向量,再连接至预训练LM,实现高效图文理解[32] |
连续 |
图像 caption,视觉QA |
|
LLaVA: Large Language and Vision Assistant |
2023 arXiv |
Liu 等 |
CLIP ViT编码+LLaMA对话模型 |
ViT提取图像embedding,经线性投射作为LLaMA的对话前缀,使用GPT-4生成的对话数据微调,实现开放域视觉对话 |
连续 |
图文对话 |
|
LaVIT: Unified Language-Vision Pretraining[34] |
2024 ICLR |
Jin 等 |
单Transformer统一图文模型 |
设计动态视觉Tokenizer将图像离散为Token序列,与文本一同喂入LLM统一预训练,可同时输出文本和图像Token[34][35] |
离散 |
多模态生成与理解 |
|
BEiT-3: Image as a Foreign Language |
2022 arXiv |
Wang 等 (MSR) |
多路Transformer统一模态 |
图像patch和文本token共同输入统一Transformer,掩码预测训练,融合视觉语言表示,实现多任务SOTA[48][49] |
混合 |
多模态理解、VL任务 |
|
MAGVIT: Masked Generative Video Transformer |
2023 ICLR |
Yu 等 (Google) |
VQ-VAE视频编码+双向Transformer |
将视频帧离散为Token序列,掩码预测生成视频,实现高质量视频生成;其离散tokens还能用于视频压缩和动作识别,一材多用[50][51] |
离散 |
视频生成、视频理解、压缩 |
|
2023 arXiv |
Lee 等 (Google) |
改进VQ视频Tokenizer + Masked LM |
提出无需查表的大码本量化技术,将视觉码本扩展至30K+,用掩码语言模型生成图像/视频Token,在同等条件下图像生成超越扩散模型;其压缩性能也媲美VVC标准[15][21] |
离散 |
图像/视频生成、压缩 |
|
|
Finite Scalar Quantization (FSQ)[40] |
2023 arXiv |
Du 等 |
简化VQ的自编码器 |
用逐维“四舍五入”直接量化encoder输出,无需码本学习,却达到或超越VQ-VAE效果,训练更快更稳[40] |
离散 |
图像生成、自监督表示 |
|
2024 ICLR |
Tianqi Du 等 |
理论分析 + ClusterMIM算法 |
从理论阐明离散Token有助于提升MIM表征的类内一致性,提出聚类式Tokenizer,ClusterMIM在ImageNet上比MAE提升显著[27][29] |
离散 |
自监督表示学习 |
|
|
Segment Anything Model (SAM) |
2023 arXiv |
Kirillov 等 (Meta) |
ViT-Huge图像编码 + 灵活提示解码 |
用Vit提取高分辨连续特征图,设计prompt引导的掩码解码器,训练大量分割数据,实现零样本下任意图像分割能力 |
连续 |
图像分割、视觉理解 |
(注:上表中“VRL”指Visual Representation Learning,即视觉表征学习。)
上述表格囊括了近年来与离散/连续视觉编码相关的代表性研究。通过这些文献可以看出,离散型编码器在生成、多模态统一、自监督语义建模等方向取得了重大进展,而连续型编码器在判别、重构、高精度任务上依然占据主导。二者的界限随着新技术的涌现而逐渐模糊,许多工作尝试将离散与连续优点融合,取得了令人瞩目的成果。展望未来,视觉领域的编码范式可能走向分层混合:低层连续,高层离散,从而实现从像素到符号的高效映射。这将为多模态智能体的视觉认知奠定更加坚实的基础。今后研究者需根据具体任务需求,灵活选择或设计编码策略,并深入探讨离散-连续表征如何互补共存,以推动视觉AI系统朝着更智能、更通用的方向发展。[2][7]
[1] [2] [3] 视觉编码器在多模态AI时代的演进:2023年至2025年离散型与连续型范式的深度分析-CSDN博客
https://blog.csdn.net/u013250861/article/details/155076594
[4] [5] [6] [8] [9] [10] [40] 简单得令人尴尬的FSQ:“四舍五入”超越了VQ-VAE - 科学空间|Scientific Spaces
https://spaces.ac.cn/archives/9826
[7] “闭门造车”之多模态思路浅谈(一):无损输入 - 科学空间|Scientific Spaces
https://kexue.fm/archives/9984/comment-page-1?replyTo=23773
[11] Generating Diverse High-Fidelity Images with VQ-VAE-2
[12] Taming Transformers for High-Resolution Image Synthesis
https://compvis.github.io/taming-transformers/
[13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [38] [50] [51] [52] Language Model Beats Diffusion — Tokenizer is Key to Visual Generation
https://arxiv.org/html/2310.05737v3
[24] [46] [22.08] BEiT v2 | DOCSAID
https://docsaid.org/en/papers/vision-transformers/beit-v2/
[25] [26] [27] [28] [29] [Quick Review] On the Role of Discrete Tokenization in Visual Representation Learning
https://liner.com/review/on-the-role-of-discrete-tokenization-in-visual-representation-learning
[30] [31] [32] [33] [39] [42] [43] [47] Multimodal Large Language Models
https://neptune.ai/blog/multimodal-large-language-models
[34] [35] [36] [37] Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization | OpenReview
https://openreview.net/forum?id=FlvtjAB0gl
[41] [讨论] 为什么当前的LLM 在离散空间中表现良好 - Reddit
[44] [PDF] Image as a Foreign Language: BEIT Pretraining for Vision and ...
[45] [PDF] Neural Discrete Representation Learning | Semantic Scholar
[48] What is Microsoft's BEIT-3? - by Michael Spencer - ai-supremacy.com
https://www.ai-supremacy.com/p/what-is-microsofts-beit-3
[49] BEiT-3: Unified Pretraining for Vision & Language - Emergent Mind
更多推荐



所有评论(0)