【AI黑科技】Tuna模型统一视觉表示,Meta大佬开源神器,大模型开发者的福音,手把手教你复现!
Tuna模型创新性地通过串联VAE编码器与语义表示编码器构建统一视觉表示空间,有效解决了多模态模型中理解与生成任务的特征冲突问题。该模型在图像/视频理解、生成及编辑三大类任务上均取得SOTA或极具竞争力的结果。实验表明,其统一表示策略优于解耦表示和晚融合方法,且更强的预训练表示编码器能持续提升所有任务性能。Tuna为构建"全能"多模态模型提供了简洁而强大的架构范式,验证了理解与
Tuna模型通过串联VAE编码器与语义表示编码器,构建统一视觉表示空间,解决了多模态模型中理解与生成任务的特征冲突问题。该模型在图像/视频理解、生成及编辑任务上均取得SOTA或极具竞争力的结果。实验证明,统一表示优于解耦表示和晚融合策略,且更强的预训练表示编码器能持续提升所有任务性能。Tuna为构建"全能"多模态模型提供了简洁而强大的架构范式。
关键词:
多模态(Multimodal)、统一表示(Unified Representation)、视觉理解(Visual Understanding)、图像生成(Image Generation)、视频生成(Video Generation)、模型架构(Model Architecture)
一、导读
当前人工智能的一个长远目标是让一个模型能同时“看懂”和“创造”图像、视频等多模态内容,这类模型被称为原生统一多模态模型。然而,现有模型要么为理解和生成任务使用两套分离的视觉编码器,导致效率低下和特征冲突;要么强行使用单一编码器,造成任务性能不平衡。
为了解决这些问题,本论文提出了 Tuna模型。其核心是将VAE编码器与语义表示编码器串联,构建一个统一的视觉表示空间。这个设计让模型在一个框架内,既在多项图像/视频理解评测中领先,也在图像/视频生成与编辑任务上达到了顶尖水平。

二、论文基本信息

- 论文标题:Tuna: Taming Unified Visual Representations for Native Unified Multimodal Models
- 作者姓名与单位:刘志恒等,作者单位包括Meta BizAI、香港大学(HKU)、滑铁卢大学(University of Waterloo)、阿卜杜拉国王科技大学(KAUST)等。
- 代码链接:https://tuna-ai.org

三、主要贡献与创新
- 提出一种新颖的统一视觉表示设计:通过串联VAE编码器与表示编码器,构建一个能同时服务于理解和生成任务的连续视觉表示空间。
- 进行了全面的性能验证:在涵盖图像/视频理解、生成及编辑的广泛基准测试中,Tuna均取得了最先进(SOTA)或极具竞争力的结果,证明了统一表示的有效性。
- 通过详尽的消融实验揭示了设计优势:证明了其统一表示优于解耦表示及“晚融合”策略,并发现更强的预训练表示编码器能持续提升所有任务性能。
四、研究方法与原理
Tuna的核心思路是:先利用VAE编码器捕捉图像/视频的细节信息,再通过一个语义表示编码器从中提炼出高层语义特征,两者融合形成一个既包含细节又富含语义的统一表示。

模型架构与流程如下:
- 统一视觉表示构建:
- VAE编码:给定输入图像或视频 ,使用Wan 2.2的3D因果VAE编码器进行编码,得到潜在表示 。该编码器会将输入在空间上下采样16倍,在时间上(针对视频)下采样4倍。
- 加噪:为了兼容扩散(Diffusion)生成过程,对 进行加噪:,其中 是随机采样的时间步,。在理解任务中,固定 以使用干净特征。
- 表示编码:使用修改后的SigLIP 2编码器 从加噪的VAE潜在 中提取语义特征。为了适配VAE编码器的下采样率,将SigLIP 2原始的 块嵌入层替换为随机初始化的 层。
- 投影:最后通过一个两层MLP得到最终的**统一视觉表示 **。
- LLM解码与任务头:
- 将统一视觉表示 与文本标记拼接,输入到大型语言模型(LLM)解码器(如Qwen2.5)中进行联合处理。
- 对于理解任务(如图文问答),LLM解码器通过语言建模头(Language Modeling Head)以自回归(Autoregressive)方式生成文本答案。
- 对于生成任务(如文生图),将全部标记序列送入一个流匹配(Flow Matching)头,该头预测用于去噪的“速度”场,以实现高质量的图像/视频生成。
- 三阶段训练流程:
- 阶段1:冻结LLM解码器,训练表示编码器和流匹配头,目标为图像描述和文生图,旨在让表示编码器适应统一表示并初始化生成头。
- 阶段2:解冻整个模型进行端到端持续预训练,并引入图像指令跟随、编辑和视频描述数据,提升复杂任务能力。
- 阶段3:使用高质量指令数据进行监督微调(SFT),进一步精炼模型在所有任务上的表现。
五、实验设计与结果分析
实验设置
论文使用Qwen2.5-1.5B和Qwen2.5-7B作为核心LLM解码器,在图像(分辨率 )和视频数据上进行训练。优化器为AdamW,采用三阶段训练策略。
主要结果
- 多模态理解(对应表1):
在MME、GQA、MMMU、MMStar等9个图像理解基准上,Tuna的1.5B和7B版本在几乎所有任务上均超越或持平同期统一多模态模型(UMMs),甚至媲美部分专精理解的模型。
- 图像生成(对应表2、表3):


在GenEval、DPG-Bench和OneIG-Bench上,Tuna全面领先于其他UMMs,在文本渲染等需要精确语义理解的子任务上优势明显。
- 图像编辑(对应表4):
在ImgEdit-Bench和GEdit-Bench上,Tuna在所有UMMs中排名第一,并与顶尖的纯生成模型表现相当。
- 视频理解与生成(对应表5、表6):


在MVBench等视频理解任务上,Tuna优于Show-o2等模型。在VBench视频生成评测中,仅用1.5B参数的Tuna取得了所有UMMs中的最佳成绩。
可视化对比
- 图像生成(对应图6):
Tuna在生成包含复杂文本和多个物体的图像时,显示出更精确的提示跟随和构图能力。
- 图像编辑(对应图7):
Tuna能准确执行风格转换、环境变化、物体替换等编辑指令,并理解“左侧光照”等隐式要求。
- 视频生成(对应图8):
展示了Tuna根据复杂文本描述生成高质量、连贯视频的能力。
消融实验
(对应表7)

- 统一 vs. 解耦表示:使用统一表示的Tuna(模型12)在理解和生成任务上全面优于使用解耦表示的模型(模型8)。
- 表示编码器选择:更强的预训练表示编码器(如SigLIP 2, DINOv3)能带来全方位的性能提升。
- 与Show-o2对比:Tuna的统一表示(模型9-13)在不同配置下均优于采用晚融合(Late-fusion) 策略的Show-o2(模型7)。分析(图4,5)表明Show-o2的表示偏向语义理解,而Tuna的表示更平衡,利于生成。


六、论文结论与评价
- 总结:本文成功证明,通过串联VAE与表示编码器来构建统一视觉表示的方法是可行且高效的。基于此的Tuna模型在图像/视频的理解、生成、编辑三大类任务上均取得了顶尖的综合性能。实验还表明,统一表示能避免特征冲突,且理解与生成任务可以相互促进。
- 影响与启示:这项工作为构建真正的“全能”多模态模型提供了一个简洁而强大的架构范式。它表明,精心设计的统一表示空间是连接多模态理解与生成的关键,并提示社区可以更多关注如何利用强大的预训练视觉编码器来增强生成模型。
- 优点:1) 架构设计优雅且有效,统一表示解决了核心矛盾;2) 性能全面,在多达十余个基准测试中验证了其领先性;3) 可扩展性强,实验表明换用更强的表示编码器能直接提升性能。
- 局限与讨论:1) 模型在训练时需同时处理加噪(生成)和干净(理解)的特征,并引入流匹配头,计算开销和复杂度仍高于纯理解模型。2) 尽管在UMMs中领先,但与某些领域内最顶尖的纯生成模型(如FLUX.1)相比,在部分生成指标上仍有差距,这可能是统一模型为了平衡多任务能力所做的妥协。未来工作可以探索如何在保持统一性的同时,进一步逼近甚至超越单任务专家的性能极限。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐


所有评论(0)