别再逐 Token 生成啦!蚂蚁 LLaDA 2.1 文本扩散模型跑出 892 TPS 闪电速度
LLaDA 2.1的突破让我们看到,AI没必要一直像挤牙膏一样逐字生成。这种全局进化的模式一旦普及,AI写作和编程将从打字机时代跨入显影时代,一眨眼全文就位。这种瞬时生成的快感将彻底重塑交互节奏,让实时协作真正变得丝滑无感。这种高效率也意味着算力成本的断崖式下跌。当千亿参数的大模型能在随身设备上秒开秒回,AI就不再是昂贵的云端奢侈品,而是像空气一样无处不在的随身智囊。

论文链接:https://arxiv.org/abs/2602.08676
发布时间:2026.02.10
你有没有想过,现在的大模型(比如GPT或者Qwen)写代码、写文章虽然很厉害,但它们总像是在“挤牙膏”,都是一个字一个字地往外蹦。
这种“自回归(AR)”的方式,虽然效果稳,但到了超大参数量(比如100B级别)的时候,速度比较让人抓狂。
今天我要聊的这篇论文 LLaDA2.1,就是想给大模型装上了“加速引擎”,直接把 100B 规模的大模型在代码任务上的速度推到了 892 TPS!
差不多每秒快900个Token,也就是一眨眼几千行代码就出来了。
它是怎么做到的呢?今天我们就来看下这篇论文所用到的方法。
一、 告别“挤牙膏”:从“盲人摸象”到“全局修图”
现在的模型大多是“自回归”,也就是必须猜出前一个词,才能画出后一个词。但这篇论文走的是 “扩散模型(Diffusion)” 的路子。
你可以把文本扩散模型想象成一个“装修大师”:它先给你一个满是噪音、看不清内容的毛坯房(全是 [MASK] 掩码),然后通过几步观察,逐步填充掩码,一次性把整间房子的装修完成。这种方法也被称为 Mask-to-Token(M2T)。
之前的 LLaDA 2.0 已经证明了这招在 100B 模型上可行,但有个痛点:为了保证质量,它得慢慢磨。如果你想快,生成的质量就会崩。
这篇 LLaDA 2.1 最妙的地方就在于,它引入了一个叫 T2T(Token-to-Token)编辑 的机制。
简单来说,以前是“画错了只能硬着头皮往下画”,现在是“一边画一边擦,发现错字直接改”。
二、核心创新:Token编辑+双模式,让模型“边写边改”
1. 两个核心操作:生成+编辑
- M2T(生成):把[MASK]换成具体Token,完成“初稿”创作;
- T2T(编辑):检查已生成的Token,要是有更优选择且置信度足够,就直接替换,完成“修改”。
2. 双阈值控制:决定“怎么生成+怎么修改”
模型定义了两个关键阈值,用数学公式明确什么时候该生成、什么时候该编辑:
- 解掩码阈值τmask\tau_{mask}τmask:控制M2T生成的“大胆程度”,值越低,模型越敢快速生成初稿;
- 编辑阈值τedit\tau_{edit}τedit:控制T2T编辑的“严格程度”,值越高,模型越谨慎修改已生成Token。
对应的两个更新集合:
- 解掩码集合Γt={i∣xti=[MASK] 且 pθ(vti∣xt)>τmask}\Gamma_t = \{i | x_t^i=[MASK] \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{mask}\}Γt={i∣xti=[MASK] 且 pθ(vti∣xt)>τmask}:哪些[MASK]位置要生成Token;
- 编辑集合Δt={i∣xti≠vti 且 pθ(vti∣xt)>τedit}\Delta_t = \{i | x_t^i \neq v_t^i \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{edit}\}Δt={i∣xti=vti 且 pθ(vti∣xt)>τedit}:哪些已生成Token要修改。
最终更新规则很简单:只要在Γt\Gamma_tΓt或Δt\Delta_tΔt里的位置,就用最优Token替换,其他位置保持不变。
3. 两种模式自由切:快或准,按需选择
基于双阈值,LLaDA2.1搞出了两种实用模式,完美适配不同场景:
- 快速模式(S Mode):大胆降低τmask\tau_{mask}τmask,快速生成“粗糙初稿”,再靠T2T编辑修正错误,主打一个“先快后准”。
- 质量模式(Q Mode):用保守的高τmask\tau_{mask}τmask,生成时就追求高置信度,T2T只做小修小补,主打“极致准确”,牺牲一点速度换顶尖性能。
这一下就把之前“非此即彼”的硬权衡,变成了“按需配置”的软平衡。

三、训练秘诀:让模型既会“写初稿”,又会“改错题”
光有解码机制不够,还得让模型练出对应的能力。LLaDA2.1设计了三层训练范式,层层递进练技能:
1. 基础训练(CPT+SFT):双目标同步练
持续预训练(CPT)和有监督微调(SFT)阶段,都用“M2T+T2T双目标”训练:
- M2T流:练“写初稿”,预测[MASK]位置的正确Token;
- T2T流:练“改错题”,从带噪声的错误Token中恢复正确答案。
2. 强化学习(RL):给dLLMs量身定制的“进阶课”
之前没人给大尺度dLLMs做过完整RL训练,因为序列级似然估计太难算。LLaDA2.1搞了个“ELBO-based Block-level Policy Optimization(EBPO)”框架:
把复杂的序列级计算,拆成块级计算,再用向量化估计加速,一下子解决了计算难题。目标函数是:
JEBPO(θ)=Ex,y∼πθold[min(ρ(y∣x)A^,clip(ρ(y∣x),1−ϵlow,1+ϵhigh)A^)]\mathcal{J}_{EBPO}(\theta) = \mathbb{E}_{x,y\sim\pi_{\theta_{old}}}\left[ \min\left( \rho(y|x)\hat{A}, clip(\rho(y|x),1-\epsilon_{low},1+\epsilon_{high})\hat{A} \right) \right]JEBPO(θ)=Ex,y∼πθold[min(ρ(y∣x)A^,clip(ρ(y∣x),1−ϵlow,1+ϵhigh)A^)]
简单说,就是让模型在“生成-编辑”的每一步,都能学到“怎么选更优”,推理精度和指令跟随性都大幅提升。

四、基础设施拉满:训练推理“开小灶”
好模型也得好基建撑着,LLaDA2.1在训练和推理环节都做了专属优化:
1. 训练基建
- CPT/SFT:用dFactory框架,专门优化了多轮前向(MTF)阶段;
- RL训练:扩展了AReaL框架,用ASystem做分布式调度,SGLang做滚动推理引擎,完美支持M2T和T2T模式。
2. 推理基建
- 基于定制版SGLang,融合Alpha-MoE大核,把两个FusedMoE计算合并,速度再提一档;
- 用块级FP8量化,平衡速度和精度;
- 块级因果掩码注意力:长上下文的KV缓存一次前向就能算完,还支持基数缓存和批处理,长文本推理也飞快;
- 多块编辑(MBE):模型能回头修改之前生成的块,进一步提升质量。
五、实验结果:速度封神,质量还能打
论文用33个严苛基准测试,测了两个版本:LLaDA2.1-Mini(16B)和LLaDA2.1-Flash(100B),结果相当不错:
1. 双模式表现:快准随心切换
- S Mode:比LLaDA2.0分数略降,但TPF(每次前向生成Token数)大幅提升,速度直接起飞;
- Q Mode:不管是Mini还是Flash版,分数都超过LLaDA2.0,质量更优。

2. 速度炸裂:编码任务最突出
S Mode量化后,速度优势一目了然:
- Flash版(100B):HumanEval+达891.74 TPS,BigCodeBench 801.48 TPS,LiveCodeBench 663.39 TPS;
- Mini版(16B):HumanEval+冲到1586.93 TPS,比Flash版还快;
- 不同领域速度:编码>数学>知识>推理>指令跟随,结构化数据场景速度优势最明显。
对比LLaDA2.0、Ling、Qwen3,LLaDA2.1的吞吐量遥遥领先,质量却只掉了一点点。

3. 多块编辑(MBE):小代价换高质量
开了MBE后,各基准分数都稳定提升,尤其是推理和编码任务,吞吐量只是小幅下降:
- Flash版ZebraLogic:分数从84.20涨到88.20,TPF从5.80降到5.03;
- LiveCodeBench:分数从44.05涨到46.48,TPF从6.48降到5.62。

六、总结一下
LLaDA 2.1的突破让我们看到,AI没必要一直像挤牙膏一样逐字生成。
这种全局进化的模式一旦普及,AI写作和编程将从打字机时代跨入显影时代,一眨眼全文就位。
这种瞬时生成的快感将彻底重塑交互节奏,让实时协作真正变得丝滑无感。
这种高效率也意味着算力成本的断崖式下跌。当千亿参数的大模型能在随身设备上秒开秒回,AI就不再是昂贵的云端奢侈品,而是像空气一样无处不在的随身智囊。
更多推荐

所有评论(0)