文生图也会“精神分裂”?北大、字节联手揭秘:越思考越画错!并行框架终结AI“左右互搏”
本文提出了一种并行多模态扩散框架MMaDA-Parallel,用于提升"思考感知"型图像生成与编辑任务中的跨模态对齐性。针对现有顺序生成方法中推理错误会传播到图像生成阶段的问题,该框架通过双向注意力机制实现文本和图像的并行生成,并在去噪过程中持续强化语义一致性。实验表明,在自建的ParaBench基准测试中,该方法在输出对齐指标上比现有最优模型提升6.9%,同时保持了单模态生成质量。这项工作为多模


文章链接:https://arxiv.org/pdf/2511.09611
代码链接:https://github.com/tyfeld/MMaDA-Parallel
亮点直击
-
深入的基准测试与分析:ParaBench,一个新的基准测试,旨在系统性地评估“思考感知”型图像生成与编辑任务。它不仅关注最终生成的图像和文本的质量,更核心的是评估两者之间的对齐程度。
-
并行的多模态扩散框架:提出了一个纯粹基于离散扩散的并行框架,用于“思考感知”型的图像编辑与生成。该框架允许文本和图像两种模态在每一个去噪步骤中进行双向的注意力交互,从而有效缓解了自回归(AR)顺序生成流程中固有的错误累积问题。
-
并行强化学习(ParaRL):引入了一种新颖的并行强化学习策略 ParaRL。该方法沿着整个去噪轨迹分配语义奖励,而不是仅仅奖励最终结果,从而进一步增强了输出模态之间的一致性和整体性能。
-
全面的评估与最先进的对齐效果:通过广泛的实验,本文验证了该框架的有效性。在 ParaBench 基准测试中,与现有技术(SOTA)模型 Bagel 相比,本工作在“输出对齐”指标上取得了 6.9% 的显著提升,同时在单模态指标上保持了相当的性能,为“思考感知”型图像合成建立了一个更稳健的范式。
解决的问题
在“思考感知”型的生成任务中,模型会先生成一步推理(即“思考过程”),然后基于这个推理来生成或编辑图像。尽管这种方法在很多情况下能提升效果,但本文发现了一个关键的失败模式:在某些复杂任务中,预先进行的推理反而会导致最终图像的语义保真度下降。
这个问题源于现有方法大多采用顺序、自回归的生成流程。在这种流程中,推理文本的任何模糊、不准确或错误都会被传递并放大到后续的图像生成阶段,导致最终生成的图像与用户的核心指令产生偏差。现有的评估基准只关注最终图像,忽略了中间推理步骤的质量及其与最终图像的对齐性,因此无法定位和解决这一问题。
提出的方案
为了解决上述问题,提出了一个并行的多模态扩散框架 MMaDA-Parallel,并辅以一种新颖的训练策略 ParaRL。
-
MMaDA-Parallel 框架:
-
并行生成:与先生成文本再生成图像的顺序模式不同,该框架让推理文本和目标图像在统一的扩散过程中同时、并行地生成。
-
双向交互:在每个去噪步骤中,文本和图像的 token 之间都可以进行双向的注意力交互。这意味着文本的生成可以随时参考正在形成的图像特征,反之亦然。这种持续的跨模态“协商”机制避免了单向的错误传播。
-
-
并行强化学习(ParaRL):
-
轨迹级优化:传统的强化学习只在生成过程的最后一步(即最终输出)计算奖励。ParaRL 的创新之处在于,它在去噪过程的多个中间步骤都计算奖励信号。
-
语义对齐奖励:奖励信号直接来源于中间步骤生成的文本和图像之间的语义对齐度(例如,通过 CLIP 分数衡量)。通过在整个生成轨迹上持续强化这种对齐,模型能够学会生成内部一致性更强的多模态内容。
-
应用的技术
-
离散扩散模型(Discrete Diffusion Models):框架的基础。文本(通过 LLaDA tokenizer)和图像(通过 MAGVIT-v2 quantizer)都被统一表示为离散的 token 序列,使得单一的扩散模型可以同时处理两种模态。
-
交错序列与双向注意力(Interleaved Sequence & Bidirectional Attention):将输入和输出的文本与图像 token 排列在一个单一的序列中,并使用特殊标记(sentinels)分隔。这使得模型可以在一个统一的上下文中进行全面的双向跨模态注意力计算。
-
并行去噪与双重调度器(Parallel Denoising & Dual Schedulers):在解码(采样)过程中,模型在一个共享的时间轴上并行去噪。但针对文本和图像两种模态,分别采用了不同的掩码调度器(masking schedulers)——文本采用线性揭示调度,图像采用余弦揭示调度——以适应它们各自的生成特性。
-
基于 GRPO 的强化学习:ParaRL 的实现基于 Group Relative Policy Optimization (GRPO) 目标函数,并对其进行了调整以适应扩散模型的非自回归特性和轨迹级奖励的设定。奖励函数基于归一化后的 CLIP 分数,以确保训练的稳定性。
达到的效果
-
显著提升跨模态对齐性:在ParaBench 基准上,MMaDA-Parallel(结合 ParaRL)在所有开源模型中取得了最高的“输出对齐”(Output Alignment)分数(59.8%),相比之前的 SOTA 模型 Bagel(52.9%)提升了 6.9%。
-
保持高质量的单模态输出:在提升对齐性的同时,模型在文本质量和图像质量等单模态指标上与 Bagel 表现相当,尽管 Bagel 的训练数据量要大得多。
- 验证了并行框架与轨迹优化的优越性:消融实验证明:
-
与顺序生成基线相比,并行解码能显著提高输出对齐性。
-
与只在最终输出应用奖励的传统强化学习相比,本文提出的轨迹级优化(ParaRL)能带来更稳定和更显著的性能增益。
-

图 2:MMaDA-Parallel 支持并行、感知思维的图像编辑和生成。与 Bagel 相比,MMaDA-Parallel 的推理质量更高,生成的文本和图像输出之间的一致性也更强。
MMaDA-Parallel
关于“思考感知”型合成的发现与基准测试
为了研究预生成推理是否真正能提升性能,本文在图像编辑任务上进行了一项对照研究,因为这类任务比单纯的图像合成提供了更清晰的、基于指令的评估。从已有的基准测试中采样输入,并使用 Bagel——一个支持“思考感知”型生成的先进开源统一模型——在开启和关闭“思考”功能两种模式下生成成对的输出。在图 1(c) 和表 1 中报告了在 Kris-Bench上的平均编辑评估指标。

图 1:顺序与并行思维感知图像合成。(a) 顺序生成(Bagel、GPT4o)可能存在推理模糊或错误的问题。(b) 平行生成可在每个去噪步骤中调整文本和图像,从而减少幻觉和错误。(c) 定量比较显示推理会降低某些类别的性能。(d) 较差的类别也表现出较弱的推理-图像对齐,突出了加强跨模态对齐的必要性。

发现。虽然推理步骤在大多数任务上提升了性能,但也出现了一个显著的反常趋势:在相当一部分(约 23%)的案例中,性能反而下降了,尤其是在复杂的组合编辑任务中。更深入的分析表明,这些失败通常源于低质量或模糊的推理文本,这些文本误导了图像生成过程。这暴露了现有评估协议中的一个关键缺陷:它们只评估最终的图像,却忽略了作为另一种生成模态的中间推理的质量。
混合模态的基准测试。这一分析揭示了当前评估范式的一个根本局限性:现有的基准只评估图像,忽略了推理本身的质量及其与图像的一致性。为了解决这一差距,本文引入了 ParaBench,这是一个专为全面评估“思考感知”型图像合成而设计的新基准。ParaBench 包含 300 个具有挑战性的提示,其中 200 个用于编辑,100 个用于生成。编辑提示经过精心策划,用以测试广泛的能力,不仅涵盖常规操作(如添加、移除、替换),还包括需要推理的复杂任务。100 个生成提示则专注于复杂场景的开放式创意合成。本文使用 GPT-4.1 在六个细粒度维度上对模型在 ParaBench 上的表现进行评估:对于文本输出,评估文本质量和文本对齐;对于视觉输出,评估图像质量、图像对齐和图像一致性;最后,评估两者间的整体输出对齐。
为了展示 ParaBench 的诊断能力,将其应用于一个代表性的基线模型 Bagel。虽然完整的量化结果在附录 A 中呈现,但表 1 通过关注两个关键指标——文本质量和输出对齐——突显了一个重要发现。结果显示,推理步骤的质量与最终性能之间存在明确的相关性。值得注意的是,那些表现下降的类别,其推理质量和推理-图像协同性也同样遭受了显著的下降。这种模式强烈表明,糟糕的推理不仅未能提供有益的指导,反而主动地误导了生成过程,从而验证了明确提升文本与图像生成协同性的必要性。
关于并行多模态扩散的动机。本文的基准测试结果揭示了当前“思考感知”型生成的一个关键限制:顺序生成范式(即推理先于图像合成)创建了一种刚性的依赖关系,这可能传播错误并限制跨模态协同。当推理质量下降时,它会直接损害后续的图像生成,正如在空间和时间编辑任务中观察到的相关性能下降所证明的那样。为了解决这个根本问题,本文提出了一个并行的统一多模态扩散框架,该框架能够同时生成推理文本和图像,从而促进真正的多模态协作,并消除顺序方法中固有的错误传播。
基础算法与架构
离散扩散模型已在图像和文本生成任务中展现出强大的性能。基于统一的离散扩散视角,MMaDA证明了单一的扩散框架可以联合建模多种模态;然而,其解码过程在不同模态间仍然是顺序的。为了克服这一限制,本文提出了一个并行的多模态扩散框架,该框架:(i) 将所有模态表示为离散的 token,(ii) 将它们排列在一个带有双向注意力的交错序列中,以及 (iii) 采用一个跨模态共享的单一掩码预测器,从而实现文本和图像的同步去噪。该框架的概览如图 3 所示。

图 3:并行生成架构:在(a)训练期间,图像和文本响应被屏蔽,并使用统一屏蔽预测器并行预测,屏蔽令牌似然目标对其进行了优化。在(b)采样期间,模型执行并行解码,联合生成图像和文本响应,从而实现高效的多模态响应生成。
交错的离散序列布局。遵循 MMaDA 框架,本文在一个统一的离散 token 空间内处理文本和图像。具体来说,本文使用 LLaDA tokenizer对文本进行分词,并使用一个预训练的 MAGVIT-v2量化器将图像编码为离散视觉 token 网格。这些被 token 化的模态随后被序列化为一个单一的交错序列,使用明确的分隔符(sentinels)和任务标签来实现完全的双向跨模态注意力:
输入: <|task|><|soi|>[img]<|eoi|><|bos|>[text]<|eos|>
输出: <|soi|>[output img]<|eoi|><|bos|>[output text]<|eos|>
在训练期间,本文将输入和输出模板拼接成一个单一序列,允许模型在一个统一的上下文中从输出关注到输入。任务 token <|task|> 根据不同场景被实例化为不同形式,<|thinkgen|> 用于“思考感知”型生成,<|thinkedit|> 用于“思考感知”型编辑。这种单序列设计消除了自回归跨模态流程所引入的顺序不对称性和曝光偏差。
训练目标。令 表示拼接后的训练序列(输入部分后跟输出部分),其中 是序列中的 token 总数。本文保持输入部分不变,只对输出部分施加噪声。在一个采样的时间步 ,对于输出部分中的每个 token,本文以概率 将其替换为 [MASK],并以概率 保持不变;输入部分的 token 则保持不变:
等价地,对于输出中的位置,经过 步后的吸收态边缘分布为 ,其中 , 是 [MASK] 的 one-hot 分布。
并行扩散模型 被构建为一个在文本和图像 token 联合词汇表上的统一掩码-token 预测器。令 表示拼接的输入-输出序列中的 token 位置。由于在扩散过程中只有输出部分被加噪,模型会在当前被掩码的位置上预测真实 token 。为了更好地平衡不同模态间的训练动态,本文使依赖于时间步的损失权重具有模态特异性:输出图像部分和输出文本部分的 token 分别被赋予独立的权重 和 。为简洁起见,本文使用一个统一的、感知 token 的权重函数 来表示目标函数。本文优化一个经过时间步重加权的交叉熵损失:
其中 是指示函数,且
本文凭经验发现,对文本 token 应用一个随时间步变化的权重 ,并对图像 token 使用一个恒定权重 ,能够显著稳定图像质量和输出对齐的训练过程。本文在图 3(a) 中阐释了这一过程,并在附录 D 中包含了详细的附加预备知识和消融研究。
使用双重调度器的并行去噪。解码过程沿着一个共享的扩散时间轴 进行,如图 3(b) 所示。本文定义了两个模态特定的调度器,,它们指定了在步骤 时未被掩码 token 的目标比例。在每个逆向步骤中:(i) 模型联合预测所有当前被掩码位置的分布;(ii) 对于每个模态,一部分 token 被采样(例如,通过基于置信度的采样),而其余位置则保留为 [MASK]。因为注意力在整个序列上是双向的,文本和图像可以在解码的每一步相互提供信息。在本文的实验中,文本调度器实现为一个完全线性的揭示调度,结合半自回归的基于置信度的解码,而图像调度器则遵循一个余弦揭示调度,并采用全局基于置信度的解码。
使用并行强化学习进行后训练
用于并行合成的监督式微调。本文方法中的一个关键挑战是,现有的生成和编辑数据集缺乏并行合成框架所需的推理轨迹。为了解决这个问题,本文首先通过聚合来自不同来源的样本来构建一个合适的训练数据集。对于每个包含输入图像(用于编辑任务)、指令和最终输出图像的样本,本文使用一个多模态大语言模型(在本文的实现中为 Qwen-2.5-VL)来生成相应的推理轨迹。关于数据集构建过程的更多细节,包括来源和类别,详见附录 F。然后,本文使用这个数据集对 MMaDA进行监督式微调。这个过程将其改造为一个能够执行“思考感知”型合成的并行变体,其中推理和生成是同时发生的。
去噪轨迹上的协同效应。在分析微调后模型的生成结果时,本文观察到某些语义概念在中间的去噪步骤中,会同步地出现在文本和图像中。如图 5 所示,当任务是把一件衬衫变成“鲜艳的彩虹色”时,具体的颜色词汇和它们对应的视觉特征会在同一个时间步出现。这一观察引出了一个关键洞见:跨模态对齐并非一个终点现象,而是在整个生成轨迹中逐步建立的。这意味着,对这些中间步骤施加监督,而不仅仅是最终输出,可以进一步改善这种对齐。

图 5:抽样的协同作用。根据提示"将蓝色衬衫换成鲜艳的彩虹色",文字和图像中的特定颜色解码在同一步骤中出现
使用轨迹优化的并行强化学习。基于这一洞见,本文进一步引入了并行强化学习(ParaRL),这是一种新颖的训练范式,它直接利用了这种中间步骤的跨模态协同效应。ParaRL 不仅仅奖励最终的输出,而是将在每个去噪步骤中文本和图像 token 之间的对齐度作为密集的奖励信号。
具体来说,对于一个给定的查询 ,生成的响应是一条完整的轨迹 ,其中 是去噪步骤的总数, 是在步骤 解码出的 token 集合。虽然这种形式为每个中间响应 提供了步级奖励 ,但对整个密集轨迹进行优化在计算上是不可行的。为了使训练可行,本文采用了一种稀疏优化策略。在每次在线部署(online rollout)期间,本文预先选择采样步数 并固定一个步索引的子集 ,并且只对时间步 计算奖励 及其对应的标准化优势 。采用了一个扩散 GRPO 目标函数,该函数能够适应 token 级别的似然比,并在这些采样步骤上计算优势值:

其中 。在这个目标函数中,求和是在稀疏采样的步骤 上进行的。项 遍历了在采样步骤 的状态 中的所有 token,而 表示在步骤 之前生成的所有 token 的完整历史。最后, 是用于生成部署样本的行为策略, 控制 KL 惩罚的强度。
轨迹奖励设计。在典型的轨迹级优化框架中,通常需要一个训练良好的过程奖励模型(PRM)或价值函数,因为中间的部分输出通常缺乏足够的语义信息来进行可靠的评估。令人惊讶的是,在本文的并行文图生成设置中,本文发现中间的片段已经具有语义意义。例如,即使是部分解码的文本 token 通常也足以揭示语义线索,从而可以计算与同时生成的图像内容的对齐度,如图 4 所示。这一观察使本文能够绕过对专用 PRM 的需求:本文直接使用文本和图像之间的语义对齐作为奖励信号。

图 4:我们提出的并行强化学习(ParaRL)概述。ParaRL 并非只对最终去噪输出进行操作,而是沿着整个去噪轨迹引入奖励信号,在整个生成过程中持续强化语义一致性。
与具有二元奖励的任务(如数学推理)不同,本文的跨模态对齐目标提供了一个连续的奖励信号。然而,作为奖励来源的原始 CLIP 分数可能表现出高方差和任意的尺度,这使得它在强化学习中直接使用时不稳定。为了确保训练稳定性,因此采用了一种受先前在连续奖励 RL 工作中启发的归一化方案。本文首先在训练分布上估计 CLIP 分数的均值 和标准差 ,计算是在随机 1% 的数据子集上进行的。令 为在步骤 生成内容的原始 CLIP 分数。本文首先使用 对该分数进行标准化。然后将此标准化分数裁剪到 范围内,并进行线性缩放,得到最终的奖励 ,该奖励被限制在 范围内:
在公式 3 中使用的相应优势 则是通过在部署样本上进行标准化得到的:。
实验
本文在自建的 ParaBench 基准上进行了主要评估,并使用 GPT-4.1 作为“裁判”来评估六个细粒度指标。MMaDA-Parallel 与多个业界领先模型进行了比较,包括 Bagel、GPT-4o、Gemini-2.5 等。


主要结果: 如表 2 所示,MMaDA-Parallel 在所有开源模型中取得了最高的输出对齐分数,验证了其并行解码和轨迹级优化的有效性。尽管训练数据量远小于 Bagel,MMaDA-Parallel 在通用的文本和图像质量上仍能与之匹敌。与顶尖的闭源模型(如 GPT-4o)相比,本工作显著缩小了在对齐指标上的差距,展示了卓越的数据效率。此外,ParaRL 阶段一致地提升了输出的文图一致性,表明轨迹级优化有效地加强了整个生成过程中的跨模态基础。

关键贡献分析: 本文通过消融实验回答了两个核心研究问题:
-
并行解码是否优于顺序解码? 实验(表 3)表明,本文的并行框架在关键的对齐指标上显著优于顺序生成基线,验证了并行、交互式解码对于减少错误传播和产生连贯的多模态输出至关重要。
-
轨迹级微调是否优于输出级微调? 实验(表 4)显示,与仅在最终输出计算奖励的传统 RL 相比,本文提出的 ParaRL(轨迹级优化)在文图一致性和输出对齐方面带来了更显著的增益,并且训练动态更稳定。进一步分析(表 5)发现,在轨迹中采样 3 个步骤()进行奖励计算,是在性能和效率之间的最佳平衡点。

总结
本工作研究了一个关键现象,即顺序的“思考感知”型模型在处理复杂任务时,可能会反常地出现性能下降。本文使用自行提出的 ParaBench 基准进行了深入分析,该基准独特地评估了两种输出模态,并发现性能下降与生成模态之间的对齐度不佳有很强的相关性。为了解决这个问题,提出了一个通过监督式微调训练的并行多模态扩散框架,并利用并行强化学习(ParaRL)——一种沿着整个去噪轨迹应用奖励的新颖方法——对其进行进一步优化。实验验证了本文的方法显著改善了跨模态对齐和语义一致性,为“思考感知”型图像合成建立了一个更加稳健的范式。
参考文献
[1] MMADA-PARALLEL: MULTIMODAL LARGE DIFFUSION LANGUAGE MODELS FOR THINKING-AWARE EDITING AND GENERATION
更多推荐


所有评论(0)