这篇技术报告来自阿里巴巴集团旗下Qwen团队,于2026年6月25日发布在预印本平台arXiv,编号为arXiv:2606.27608v1,归属计算机视觉领域(cs.CV)。对这一方向感兴趣的读者可通过该编号查询完整原文。

你有没有注意到,现在的AI画图工具已经能生成非常精美的图片,但仍然时不时会出现手指数量不对、脸部略显奇怪,或者画出来的内容和你的描述对不上号的情况?这背后其实藏着一个深层问题:AI绘画模型在训练时所遵循的目标,和人类真正在乎的"好看不好看、画得对不对"之间,存在一条难以逾越的鸿沟。

Qwen团队这次发布的Qwen-Image-2.0-RL,正是为了填平这条沟而生的。他们没有再从零开始训练一个新模型,而是在已有的Qwen-Image-2.0图像生成模型的基础上,引入了一套"人类反馈强化学习"机制,再配合一种叫做"在线策略蒸馏"的方法,让模型真正学会了什么叫做"人类认可的好图"。

这个系统最终取得的成绩相当亮眼。在专门评估图像生成质量的Qwen-Image-Bench测试中,经过这套训练后的模型总分从55.23跃升至57.84,提升了整整2.61分。在用户投票决定胜负的"竞技场"评分体系(Elo评分)中,文生图任务的分数从1115涨到1193,提升了78分;图像编辑任务更是从1256飞升至1349,提升了93分。这些数字背后,是真实用户在看了两张匿名图片后更倾向于选择Qwen-Image-2.0-RL生成的那一张。

---

一、为什么AI画图需要"人类反馈"来调教?

在理解这项研究做了什么之前,有必要先搞清楚一件事:AI图像生成模型最初是怎么学会画图的?

传统的图像生成模型,靠的是一种叫做"扩散模型"(或"流匹配模型")的技术。你可以把这个过程想象成:先把一张清晰的照片逐渐往上面撒沙子,直到变成一堆杂乱的噪点;然后训练AI学会如何把这堆噪点一点点清理干净,还原出清晰的图像。这套方法在数学上叫做"去噪分数匹配",它非常擅长生成视觉上合理的图像,但它的训练目标只是"把噪点去掉",而不是"画出人类觉得好看的图"。

这两者之间的差距可不小。一张图片可以在技术上"去噪成功",但颜色搭配奇怪、人物比例失真、或者根本没有按照用户的文字描述来画。问题在于,"好不好看"和"对不对题"这两件事,很难用一个简单的数学公式来量化和优化。

大语言模型(比如ChatGPT背后的技术)早就面临过类似的困境,而解决方案正是"强化学习与人类反馈",英文缩写RLHF。这个方法的核心逻辑是:先让人类告诉模型什么样的输出更好,然后建立一个能替代人类打分的"奖励模型",最后让AI不断产出内容、接受奖励模型打分、根据分数调整自己——就像训练宠物一样,做对了给奖励,模型自然会越来越往"人类喜欢"的方向走。

然而,把这套方法从文字生成迁移到图像生成,并不是简单地换个外壳那么容易。图像生成和文字生成在技术结构上有很大不同,而且图像质量本身就是个多维度的概念——对不对题是一个维度,好不好看是另一个维度,脸画得自不自然又是一个维度。Qwen团队需要为这些不同维度分别设计奖励模型,还要解决多个奖励模型同时工作时互相干扰的问题,更需要在规模化的完整参数训练中保持稳定性——这才是真正的挑战所在。

---

二、打分系统:让AI学会"哪张图更好"的秘密武器

Qwen团队为这套系统设计了一套精心搭建的"评分体系",分别针对文生图和图像编辑两大任务,覆盖了多个不同的质量维度。

在文生图任务中,团队设计了三种不同用途的奖励模型,形成了层层递进的评分逻辑。

最基础的是"图文对齐奖励"——这个评分模型的唯一任务,就是检查生成的图像有没有忠实反映用户的文字描述。它不管图片好不好看,只问:用户说要画三只猫,你画了几只?用户说要红色的帽子,你画成绿色了吗?用户说人物坐在椅子上,你画成了站着吗?这个模型会按照优先级依次检查:物体是否存在、数量是否正确、属性(颜色、大小、材质)是否准确、空间关系是否正确、动作和姿势是否到位。如果在最关键的维度上出了问题,不管其他方面多好,分数也会被压低。

有了对不对题的保障之后,第二层是"美感奖励"——这个模型负责评估图像的视觉质量,包括构图是否平衡、光影是否自然、纹理是否细腻、整体艺术风格是否统一协调。

第三层则是专门针对人像的"肖像奖励"——因为画人脸比画风景难得多,而且人类对人脸的敏感度极高,普通的美感评分模型根本不够用。这个专项模型重点关注面部比例是否准确、皮肤和头发纹理是否真实自然、手指数量是否正确、面部五官是否协调。

对于图像编辑任务,评分体系则变成了两个方向。一个是"指令执行奖励",判断AI有没有按照用户的编辑指令正确修改图片——比如把图中的衬衫颜色改成蓝色、把背景换成海边、把人物表情调整成微笑。这个模型会把指令分解为"核心要求"和"辅助要求",并分别评估是否完成,同时还要检查整体输出是否视觉连贯。另一个则是针对人脸编辑的专属"人脸身份一致性奖励"——因为编辑涉及人像时,最大的难题不是"有没有按指令改",而是"改完之后这个人还认不认得出来"。团队发现视觉语言模型在这方面并不可靠,因此专门引入了一个基于人脸嵌入向量比对的模型,从特征层面精确衡量编辑前后人脸身份的保真度。

在这套评分体系的设计过程中,团队还做了一个非常关键的方法论选择:放弃了"两两对比"的打分方式,转而采用"绝对评分"。

两种方式的区别可以这样理解:两两对比,就像让裁判在两道菜之间选一道更好吃的;绝对评分,则是让裁判给每道菜单独打分,从1分到5分。团队为这两种方式各自训练了一套奖励模型,然后用两套模型分别训练生成模型,对比结果。结论非常清晰:用绝对评分训练出来的奖励模型,引导生成的图片质量更好,细节更丰富,伪影更少。

原因其实不难理解。两两对比只能告诉模型"A比B好",但无法传达A究竟好到什么程度。绝对评分则给了模型一把真正的"标尺",模型能知道一张图的绝对好坏,而不是只在两个选项中做相对判断。这种更丰富的监督信号,让训练出来的奖励模型对图像质量的感知更加精准。

这些奖励模型的底层架构,是基于Qwen系列视觉语言模型进行微调得到的,并且引入了思维链推理能力,让模型在打分时能够像人类评委一样,先分析图像的各个维度,再综合给出分数,而非直接输出一个不可解释的数字。

---

三、训练框架:如何稳定地让模型"越来越好"而不"走火入魔"

有了打分系统,下一步是设计训练流程。Qwen团队采用的核心算法叫做GRPO(群体相对策略优化)。这套方法原本是用于训练数学推理大模型DeepSeekMath的,现在被引入到图像生成领域。

GRPO的工作方式可以这样理解:针对同一个文字描述,让模型同时生成一批图片(比如8张),然后用奖励模型给每张图分别打分,再通过这一批图的平均分和方差来判断每张图相对于这批图的平均水平是好是差。那些明显高于平均水平的图,就会被"鼓励",模型会被引导去多生成类似的图;低于平均水平的则相反。通过这种方式,模型在每次训练中都能从自己的"成功"和"失败"经历中学习,不断向更好的方向调整。

然而,在把这套方法应用到图像生成时,团队遇到了一个棘手的问题:要不要在训练过程中使用"无分类器引导"(CFG)技术?

CFG是现代图像生成模型中一个非常重要的技术,可以把它理解为模型生成图像时的"自信心放大器"。正常情况下,模型在推理时会同时运行两个版本:一个接受了用户描述的"有条件版",一个忽略用户描述的"无条件版",然后把两者的差异放大,让最终输出更贴近用户描述、风格更鲜明。没有CFG,模型往往表现得不够自信,生成的图像风格平淡、特征模糊。

但在强化学习训练中,CFG的引入会带来奇怪的效果。团队系统测试了三种方案:第一种是训练和生成时都用CFG,结果训练极不稳定,越训图像质量越差,最终崩溃成一堆混乱的噪点;第二种是训练和生成时都不用CFG,虽然奖励分数稳步提升,但模型逐渐失去了对特定风格的把控能力,连知名人物的长相也开始画不准;第三种是生成(rollout)阶段用CFG,训练(policy optimization)阶段不用CFG。

第三种方案——团队称之为"混合CFG策略"——被证明是最优解。生成时用CFG,能确保模型产出的候选图像质量足够高,让奖励模型能获得可靠的信号;训练时不用CFG,则避免了同时优化"有条件"和"无条件"两个分支带来的不稳定性,梯度更新更干净,计算开销也大幅降低。

在多奖励信号的整合上,团队也做了细心的设计。由于文生图任务同时使用三个奖励模型(对齐、美感、肖像),而不同奖励模型的打分范围和数值特征各不相同,如果直接把分数加在一起,某个奖励模型可能会因为数值较大而在训练中占据主导地位,导致模型只会在这一个维度上优化。为了避免这种情况,团队对每个奖励维度单独做了"组内归一化"(即减去同组平均分除以标准差),让不同奖励维度的信号处于同等尺度,再按权重加总成最终的综合优势值。

训练中还有一个关于"时间步采样"的重要设计选择。图像生成本质上是一个从纯噪声一步步"清洗"到清晰图像的过程,总共会经过40步。最直接的想法是让模型在所有40步上都接受强化学习的训练信号,但实践中发现这样做会让模型迅速"走捷径"——即以极快的速度找到能骗过奖励模型的模式,但实际图像质量快速下滑。团队的解决方案是只在部分时间步上施加训练信号,重点关注靠近"纯噪声"那一端的高噪声时间步,因为这些步骤决定了图像的整体布局和语义内容,对最终质量的影响最大,且不容易被快速"钻空子"。

为了提升训练效率,团队还引入了"提示词筛选"机制。并非所有提示词都适合用于强化学习训练。对于一个提示词,如果模型每次生成的图质量都差不多(不管好坏),就说明这个提示词提供的学习信号很弱,没有留下多少改进空间。筛选方法是:用基础模型对每个候选提示词生成一批图,计算这批图奖励分数的"极差"(最高分减最低分)。只有极差超过阈值的提示词才被保留,因为它们说明模型在这个提示词上的表现存在明显的好坏差异,这正是可以学习的空间。

团队还针对不同类别的提示词(人像、风景、文字排版、通用场景等)分别设置了奖励权重。人像类提示词会给肖像奖励分配更高权重,文字排版类提示词则更强调对齐奖励,确保模型在各个视觉领域都得到有针对性的优化,而不是被某一类场景"带偏"。

在工程实现上,由于奖励模型被部署为远程API服务,网络请求会引入延迟,同步等待会严重拖慢训练速度。团队设计了异步奖励管道:模型完成一批图像的生成后,立刻在后台线程异步地把图像提交给奖励API,同时GPU继续进行下一批图像的推理计算。等奖励结果返回后,再汇总各个节点的分数、做归一化、计算优势值,然后进行策略梯度更新。这样一来,奖励计算的等待时间几乎被完全"隐藏"在推理计算的背后,整体训练速度大幅提升。

---

四、在线策略蒸馏:把两个"专科医生"合并成一个"全科医生"

强化学习训练结束后,团队手里有了两个模型:一个在文生图方面表现出色的"T2I教师",另一个在图像编辑方面表现出色的"编辑教师"。但实际部署时只能用一个模型,而且这两个教师模型之间并不兼容——分别优化文生图和编辑任务的训练过程,可能会让各自的模型在另一个任务上有所退化。

最直接的合并方式,是直接用混合数据、混合奖励对一个模型进行联合强化学习训练,让它同时优化两个任务。但这种方式存在根本性的问题:两个任务的优化目标之间存在竞争关系,模型在试图同时讨好两套奖励系统时,往往两边都顾不周全,最终落入一个"中庸但不出色"的状态。

Qwen团队提出了一种更聪明的方案:在线策略蒸馏(OPD)。

这个方法的核心思想借鉴自大语言模型领域的知识蒸馏。在大语言模型训练中,常见的方法是让一个较小的"学生模型"学习一个较大的"教师模型"的输出概率分布,从而获得接近教师模型的能力。在图像生成领域,输出不是一个词的概率,而是一系列"速度向量"——即模型在每一个去噪步骤中预测的"清洗方向"。

在OPD中,学生模型(从基础预训练模型初始化)在自己的生成轨迹上进行学习:先由学生模型自己完整地走一遍从噪声到图像的生成过程,记录下每一步所处的状态;然后,针对这条轨迹上的每个点,分别问教师模型"在这个状态下,你会朝哪个方向走",并让学生模型的预测方向向教师模型的方向靠拢。

这个设计的巧妙之处在于:学生模型是在"自己跑出来的路径"上学习,而不是在教师模型跑出来的路径上学习。这意味着学生在学习时的起点状态,和它未来推理时实际会遇到的状态是一致的,避免了"训练时的状态"和"推理时的状态"之间的分布错位。

从更严格的数学角度看,团队在论文的推导部分证明了OPD的训练目标,本质上是在最小化学生模型输出分布和教师模型输出分布之间的Wasserstein-2距离(一种衡量两个概率分布"差异"的度量)的上界。这个上界可以被转化为在学生自己的生成轨迹上,逐步匹配教师的速度场预测——这正是实际训练中执行的操作。

多教师蒸馏的实现方式也很务实:每次训练一批数据,根据当前样本属于文生图任务还是编辑任务,动态切换激活哪一个教师模型(将另一个暂时卸载到CPU内存,以节省GPU显存)。学生模型因此能够从两位专家教师那里分别学习,完全避免了不同任务奖励之间的直接竞争。

教师模型在预测速度方向时会使用CFG技术(因为它们原本就是用CFG推理的),而学生模型则不依赖CFG进行训练,OPD完成后再将CFG集成回学生的推理流程中。

为了验证这种分步蒸馏策略的优势,团队做了对比实验:把一个同时在文生图和编辑混合数据上做联合强化学习的基线(Mix-RL)和Qwen-Image-2.0-RL的OPD结果进行比较。结果显示,Mix-RL虽然比基础模型有所提升,但在文生图任务中细节锐利度和提示词遵从度都不如OPD结果;在图像编辑中,Mix-RL对复杂指令仍然存在执行不完整的问题,且人脸身份保真度较弱;而OPD产出的模型,在两个任务上均全面超越了Mix-RL基线。

---

五、测试结果:这套系统到底让图像好了多少?

Qwen团队从两个维度对模型进行了全面评估:自动化基准测试和人类偏好评分。

在Qwen-Image-Bench这个由专业评估体系支撑的基准测试上,评分涵盖质量、美感、对齐、真实世界保真度和创意生成五个一级维度,底层共有56个三级评估指标。评分由一个专门训练的"评判模型"Q-Judger执行,Q-Judger本身是在超过13万个由80位专业艺术家人工标注的图文对上训练出来的,能够模拟专业人类评委的判断。

经过强化学习训练,Qwen-Image-2.0-RL的总分从55.23提升到57.84。分项来看,进步最显著的是"创意生成"维度,提升了6.72分,以及"真实世界保真度"维度,提升了4.29分。相比之下,"质量"、"美感"、"对齐"三个维度也都有稳定的提升,但幅度相对温和。

在更能反映真实用户偏好的Elo评分体系中,结果更加直观。Elo评分来自真实用户在匿名对比中的投票——当用户在两张图之间做出选择时,胜出图的Elo分会上升,落败图的分会下降。在文生图方向,Qwen-Image-2.0-RL的总体Elo从1115升至1193,提升了78分。进一步分解到子类别,3D建模场景提升最多(+93),其次是写实摄影(+91),这反映了模型在结构一致性和细节渲染能力上的明显进步。在图像编辑方向,总体Elo从1256飞升至1349,提升了93分,在研究涵盖的产品、3D、卡通、写实、艺术、人像、文字排版、编辑八个子类别中全面提升,没有一个维度出现退步。

放到同期其他主流图像生成系统横向对比,Qwen-Image-2.0-RL在Qwen-Image-Bench上取得的57.84分处于同类系统的中上游水平,超过了Imagen 4.0 Ultra、GPT Image 1、FLUX 2 Pro、FLUX 2 Max、Seedream 4.0系列等,但仍落后于GPT Image 2(64.69)以及Nano Banana系列。

---

说到底,这项研究做的事情,可以用一个非常朴素的比喻来概括:就像一位厨师从学徒变成名厨的过程。学徒阶段,厨师学的是"怎么把食材做熟",这是基础技术,对应扩散模型的预训练阶段。但真正让厨师越来越好的,是持续得到食客的反馈——"这道菜的盐放多了"、"摆盘很好看"、"肉的火候刚刚好"。Qwen团队做的,正是给这位AI厨师搭建了一套系统化的"食客反馈机制",并设计了明智的训练方案,让它能真正从反馈中学习,而不是走偏、走捷径。

这对普通用户意味着什么?意味着当你用AI工具生成图片时,说"画一个戴眼镜的老人坐在图书馆里",AI更有可能真的按你说的画,而不是给你一个不戴眼镜的年轻人站在街上;人像的皮肤会更有质感,手指数量更可能正确;编辑图片时,改了发色之后原来那张脸还认得出来。这些变化虽然不像发布一个全新模型那样引人注目,却恰恰是用户每天在使用这类工具时真正在乎的那些细节。

有兴趣深入研究技术细节的读者,可以通过arXiv编号2606.27608查阅完整原文,其中对奖励模型训练数据的构建、OPD损失函数的数学推导,以及各项超参数的设计选择,都有详细的展开说明。

---

Q&A

Q1:Qwen-Image-2.0-RL的在线策略蒸馏(OPD)和直接混合任务强化学习训练有什么区别?

A:混合训练是让一个模型同时优化文生图和图像编辑两个任务,但这两个任务的优化目标会互相竞争,导致模型两边都顾不周全。OPD的做法是先分别训练两个专精的教师模型,然后让学生模型在自己生成的轨迹上向对应的教师模型学习,完全避免了两个任务之间的直接竞争,最终效果全面优于混合训练方案。

Q2:训练图像生成模型时为什么不能在生成和训练两个阶段都使用CFG?

A:CFG(无分类器引导)是图像生成时的"风格放大器",让图像更符合描述、风格更鲜明。在强化学习训练时若两个阶段都用CFG,需要同时优化"有条件"和"无条件"两个分支,会导致梯度计算混乱、训练极不稳定,生成图像质量反而迅速崩溃。而完全不用CFG,模型会逐渐失去风格表达能力。因此团队采用了折中方案:生成时用CFG确保候选图像质量,训练时不用CFG保持稳定。

Q3:Qwen-Image-2.0-RL的奖励模型为什么要用绝对评分而不是两两对比打分?

A:两两对比只能告诉模型"哪张更好",但无法传达具体好到什么程度;绝对评分则给每张图一个独立的具体分数,就像用标尺量长度而非比较两根棍子的长短。研究发现,绝对评分提供了更丰富的监督信号,训练出的奖励模型对图像质量的判断更精准,最终引导生成的图片质量更好、细节更丰富、伪影更少。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐