在这里插入图片描述

论文链接:https://arxiv.org/abs/2602.08676
发布时间:2026.02.10

你有没有想过,现在的大模型(比如GPT或者Qwen)写代码、写文章虽然很厉害,但它们总像是在“挤牙膏”,都是一个字一个字地往外蹦。

这种“自回归(AR)”的方式,虽然效果稳,但到了超大参数量(比如100B级别)的时候,速度比较让人抓狂。

今天我要聊的这篇论文 LLaDA2.1,就是想给大模型装上了“加速引擎”,直接把 100B 规模的大模型在代码任务上的速度推到了 892 TPS

差不多每秒快900个Token,也就是一眨眼几千行代码就出来了。

它是怎么做到的呢?今天我们就来看下这篇论文所用到的方法。

一、 告别“挤牙膏”:从“盲人摸象”到“全局修图”

现在的模型大多是“自回归”,也就是必须猜出前一个词,才能画出后一个词。但这篇论文走的是 “扩散模型(Diffusion)” 的路子。

你可以把文本扩散模型想象成一个“装修大师”:它先给你一个满是噪音、看不清内容的毛坯房(全是 [MASK] 掩码),然后通过几步观察,逐步填充掩码,一次性把整间房子的装修完成。这种方法也被称为 Mask-to-Token(M2T)。

之前的 LLaDA 2.0 已经证明了这招在 100B 模型上可行,但有个痛点:为了保证质量,它得慢慢磨。如果你想快,生成的质量就会崩。

这篇 LLaDA 2.1 最妙的地方就在于,它引入了一个叫 T2T(Token-to-Token)编辑 的机制。

简单来说,以前是“画错了只能硬着头皮往下画”,现在是“一边画一边擦,发现错字直接改”。

二、核心创新:Token编辑+双模式,让模型“边写边改”

1. 两个核心操作:生成+编辑

  • M2T(生成):把[MASK]换成具体Token,完成“初稿”创作;
  • T2T(编辑):检查已生成的Token,要是有更优选择且置信度足够,就直接替换,完成“修改”。

2. 双阈值控制:决定“怎么生成+怎么修改”

模型定义了两个关键阈值,用数学公式明确什么时候该生成、什么时候该编辑:

  • 解掩码阈值τmask\tau_{mask}τmask:控制M2T生成的“大胆程度”,值越低,模型越敢快速生成初稿;
  • 编辑阈值τedit\tau_{edit}τedit:控制T2T编辑的“严格程度”,值越高,模型越谨慎修改已生成Token。

对应的两个更新集合:

  • 解掩码集合Γt={i∣xti=[MASK] 且 pθ(vti∣xt)>τmask}\Gamma_t = \{i | x_t^i=[MASK] \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{mask}\}Γt={ixti=[MASK]  pθ(vtixt)>τmask}:哪些[MASK]位置要生成Token;
  • 编辑集合Δt={i∣xti≠vti 且 pθ(vti∣xt)>τedit}\Delta_t = \{i | x_t^i \neq v_t^i \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{edit}\}Δt={ixti=vti  pθ(vtixt)>τedit}:哪些已生成Token要修改。

最终更新规则很简单:只要在Γt\Gamma_tΓtΔt\Delta_tΔt里的位置,就用最优Token替换,其他位置保持不变。

3. 两种模式自由切:快或准,按需选择

基于双阈值,LLaDA2.1搞出了两种实用模式,完美适配不同场景:

  • 快速模式(S Mode):大胆降低τmask\tau_{mask}τmask,快速生成“粗糙初稿”,再靠T2T编辑修正错误,主打一个“先快后准”。
  • 质量模式(Q Mode):用保守的高τmask\tau_{mask}τmask,生成时就追求高置信度,T2T只做小修小补,主打“极致准确”,牺牲一点速度换顶尖性能。

这一下就把之前“非此即彼”的硬权衡,变成了“按需配置”的软平衡。

在这里插入图片描述

三、训练秘诀:让模型既会“写初稿”,又会“改错题”

光有解码机制不够,还得让模型练出对应的能力。LLaDA2.1设计了三层训练范式,层层递进练技能:

1. 基础训练(CPT+SFT):双目标同步练

持续预训练(CPT)和有监督微调(SFT)阶段,都用“M2T+T2T双目标”训练:

  • M2T流:练“写初稿”,预测[MASK]位置的正确Token;
  • T2T流:练“改错题”,从带噪声的错误Token中恢复正确答案。

2. 强化学习(RL):给dLLMs量身定制的“进阶课”

之前没人给大尺度dLLMs做过完整RL训练,因为序列级似然估计太难算。LLaDA2.1搞了个“ELBO-based Block-level Policy Optimization(EBPO)”框架:

把复杂的序列级计算,拆成块级计算,再用向量化估计加速,一下子解决了计算难题。目标函数是:

JEBPO(θ)=Ex,y∼πθold[min⁡(ρ(y∣x)A^,clip(ρ(y∣x),1−ϵlow,1+ϵhigh)A^)]\mathcal{J}_{EBPO}(\theta) = \mathbb{E}_{x,y\sim\pi_{\theta_{old}}}\left[ \min\left( \rho(y|x)\hat{A}, clip(\rho(y|x),1-\epsilon_{low},1+\epsilon_{high})\hat{A} \right) \right]JEBPO(θ)=Ex,yπθold[min(ρ(yx)A^,clip(ρ(yx),1ϵlow,1+ϵhigh)A^)]

简单说,就是让模型在“生成-编辑”的每一步,都能学到“怎么选更优”,推理精度和指令跟随性都大幅提升。

在这里插入图片描述

四、基础设施拉满:训练推理“开小灶”

好模型也得好基建撑着,LLaDA2.1在训练和推理环节都做了专属优化:

1. 训练基建

  • CPT/SFT:用dFactory框架,专门优化了多轮前向(MTF)阶段;
  • RL训练:扩展了AReaL框架,用ASystem做分布式调度,SGLang做滚动推理引擎,完美支持M2T和T2T模式。

2. 推理基建

  • 基于定制版SGLang,融合Alpha-MoE大核,把两个FusedMoE计算合并,速度再提一档;
  • 用块级FP8量化,平衡速度和精度;
  • 块级因果掩码注意力:长上下文的KV缓存一次前向就能算完,还支持基数缓存和批处理,长文本推理也飞快;
  • 多块编辑(MBE):模型能回头修改之前生成的块,进一步提升质量。

五、实验结果:速度封神,质量还能打

论文用33个严苛基准测试,测了两个版本:LLaDA2.1-Mini(16B)和LLaDA2.1-Flash(100B),结果相当不错:

1. 双模式表现:快准随心切换

  • S Mode:比LLaDA2.0分数略降,但TPF(每次前向生成Token数)大幅提升,速度直接起飞;
  • Q Mode:不管是Mini还是Flash版,分数都超过LLaDA2.0,质量更优。

在这里插入图片描述

2. 速度炸裂:编码任务最突出

S Mode量化后,速度优势一目了然:

  • Flash版(100B):HumanEval+达891.74 TPS,BigCodeBench 801.48 TPS,LiveCodeBench 663.39 TPS;
  • Mini版(16B):HumanEval+冲到1586.93 TPS,比Flash版还快;
  • 不同领域速度:编码>数学>知识>推理>指令跟随,结构化数据场景速度优势最明显。

对比LLaDA2.0、Ling、Qwen3,LLaDA2.1的吞吐量遥遥领先,质量却只掉了一点点。

在这里插入图片描述

3. 多块编辑(MBE):小代价换高质量

开了MBE后,各基准分数都稳定提升,尤其是推理和编码任务,吞吐量只是小幅下降:

  • Flash版ZebraLogic:分数从84.20涨到88.20,TPF从5.80降到5.03;
  • LiveCodeBench:分数从44.05涨到46.48,TPF从6.48降到5.62。

在这里插入图片描述

六、总结一下

LLaDA 2.1的突破让我们看到,AI没必要一直像挤牙膏一样逐字生成。

这种全局进化的模式一旦普及,AI写作和编程将从打字机时代跨入显影时代,一眨眼全文就位。

这种瞬时生成的快感将彻底重塑交互节奏,让实时协作真正变得丝滑无感。

这种高效率也意味着算力成本的断崖式下跌。当千亿参数的大模型能在随身设备上秒开秒回,AI就不再是昂贵的云端奢侈品,而是像空气一样无处不在的随身智囊。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐