别再逐 Token 生成啦！蚂蚁 LLaDA 2.1 文本扩散模型跑出 892 TPS 闪电速度

LLaDA 2.1的突破让我们看到，AI没必要一直像挤牙膏一样逐字生成。这种全局进化的模式一旦普及，AI写作和编程将从打字机时代跨入显影时代，一眨眼全文就位。这种瞬时生成的快感将彻底重塑交互节奏，让实时协作真正变得丝滑无感。这种高效率也意味着算力成本的断崖式下跌。当千亿参数的大模型能在随身设备上秒开秒回，AI就不再是昂贵的云端奢侈品，而是像空气一样无处不在的随身智囊。

馒头好不好

514人浏览 · 2026-02-12 21:13:31

馒头好不好 · 2026-02-12 21:13:31 发布

在这里插入图片描述

论文链接：https://arxiv.org/abs/2602.08676
发布时间：2026.02.10

你有没有想过，现在的大模型（比如GPT或者Qwen）写代码、写文章虽然很厉害，但它们总像是在“挤牙膏”，都是一个字一个字地往外蹦。

这种“自回归（AR）”的方式，虽然效果稳，但到了超大参数量（比如100B级别）的时候，速度比较让人抓狂。

今天我要聊的这篇论文 LLaDA2.1，就是想给大模型装上了“加速引擎”，直接把 100B 规模的大模型在代码任务上的速度推到了 892 TPS！

差不多每秒快900个Token，也就是一眨眼几千行代码就出来了。

它是怎么做到的呢？今天我们就来看下这篇论文所用到的方法。

一、告别“挤牙膏”：从“盲人摸象”到“全局修图”

现在的模型大多是“自回归”，也就是必须猜出前一个词，才能画出后一个词。但这篇论文走的是 “扩散模型（Diffusion）” 的路子。

你可以把文本扩散模型想象成一个“装修大师”：它先给你一个满是噪音、看不清内容的毛坯房（全是 [MASK] 掩码），然后通过几步观察，逐步填充掩码，一次性把整间房子的装修完成。这种方法也被称为 Mask-to-Token（M2T）。

之前的 LLaDA 2.0 已经证明了这招在 100B 模型上可行，但有个痛点：为了保证质量，它得慢慢磨。如果你想快，生成的质量就会崩。

这篇 LLaDA 2.1 最妙的地方就在于，它引入了一个叫 T2T（Token-to-Token）编辑 的机制。

简单来说，以前是“画错了只能硬着头皮往下画”，现在是“一边画一边擦，发现错字直接改”。

二、核心创新：Token编辑+双模式，让模型“边写边改”

1. 两个核心操作：生成+编辑

M2T（生成）：把[MASK]换成具体Token，完成“初稿”创作；
T2T（编辑）：检查已生成的Token，要是有更优选择且置信度足够，就直接替换，完成“修改”。

2. 双阈值控制：决定“怎么生成+怎么修改”

模型定义了两个关键阈值，用数学公式明确什么时候该生成、什么时候该编辑：

解掩码阈值 $τmask\tau_{mask}$ ：控制M2T生成的“大胆程度”，值越低，模型越敢快速生成初稿；
编辑阈值 $τedit\tau_{edit}$ ：控制T2T编辑的“严格程度”，值越高，模型越谨慎修改已生成Token。

对应的两个更新集合：

解掩码集合 $pθ(vti∣xt)>τmask}\Gamma_t = \{i | x_t^i=[MASK] \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{mask}\}$ ：哪些[MASK]位置要生成Token；
编辑集合 $pθ(vti∣xt)>τedit}\Delta_t = \{i | x_t^i \neq v_t^i \text{ 且 } p_\theta(v_t^i | x_t)>\tau_{edit}\}$ ：哪些已生成Token要修改。

最终更新规则很简单：只要在 $Γt\Gamma_t$ 或 $Δt\Delta_t$ 里的位置，就用最优Token替换，其他位置保持不变。

3. 两种模式自由切：快或准，按需选择

基于双阈值，LLaDA2.1搞出了两种实用模式，完美适配不同场景：

快速模式（S Mode）：大胆降低 $τmask\tau_{mask}$ ，快速生成“粗糙初稿”，再靠T2T编辑修正错误，主打一个“先快后准”。
质量模式（Q Mode）：用保守的高 $τmask\tau_{mask}$ ，生成时就追求高置信度，T2T只做小修小补，主打“极致准确”，牺牲一点速度换顶尖性能。

这一下就把之前“非此即彼”的硬权衡，变成了“按需配置”的软平衡。

在这里插入图片描述

三、训练秘诀：让模型既会“写初稿”，又会“改错题”

光有解码机制不够，还得让模型练出对应的能力。LLaDA2.1设计了三层训练范式，层层递进练技能：

1. 基础训练（CPT+SFT）：双目标同步练

持续预训练（CPT）和有监督微调（SFT）阶段，都用“M2T+T2T双目标”训练：

M2T流：练“写初稿”，预测[MASK]位置的正确Token；
T2T流：练“改错题”，从带噪声的错误Token中恢复正确答案。

2. 强化学习（RL）：给dLLMs量身定制的“进阶课”

之前没人给大尺度dLLMs做过完整RL训练，因为序列级似然估计太难算。LLaDA2.1搞了个“ELBO-based Block-level Policy Optimization（EBPO）”框架：

把复杂的序列级计算，拆成块级计算，再用向量化估计加速，一下子解决了计算难题。目标函数是：

$JEBPO(θ)=Ex,y∼πθold[min⁡(ρ(y∣x)A^,clip(ρ(y∣x),1−ϵlow,1+ϵhigh)A^)]\mathcal{J}_{EBPO}(\theta) = \mathbb{E}_{x,y\sim\pi_{\theta_{old}}}\left[ \min\left( \rho(y|x)\hat{A}, clip(\rho(y|x),1-\epsilon_{low},1+\epsilon_{high})\hat{A} \right) \right]$

简单说，就是让模型在“生成-编辑”的每一步，都能学到“怎么选更优”，推理精度和指令跟随性都大幅提升。

在这里插入图片描述

四、基础设施拉满：训练推理“开小灶”

好模型也得好基建撑着，LLaDA2.1在训练和推理环节都做了专属优化：

1. 训练基建

CPT/SFT：用dFactory框架，专门优化了多轮前向（MTF）阶段；
RL训练：扩展了AReaL框架，用ASystem做分布式调度，SGLang做滚动推理引擎，完美支持M2T和T2T模式。

2. 推理基建

基于定制版SGLang，融合Alpha-MoE大核，把两个FusedMoE计算合并，速度再提一档；
用块级FP8量化，平衡速度和精度；
块级因果掩码注意力：长上下文的KV缓存一次前向就能算完，还支持基数缓存和批处理，长文本推理也飞快；
多块编辑（MBE）：模型能回头修改之前生成的块，进一步提升质量。

五、实验结果：速度封神，质量还能打

论文用33个严苛基准测试，测了两个版本：LLaDA2.1-Mini（16B）和LLaDA2.1-Flash（100B），结果相当不错：

1. 双模式表现：快准随心切换

S Mode：比LLaDA2.0分数略降，但TPF（每次前向生成Token数）大幅提升，速度直接起飞；
Q Mode：不管是Mini还是Flash版，分数都超过LLaDA2.0，质量更优。

在这里插入图片描述

2. 速度炸裂：编码任务最突出

S Mode量化后，速度优势一目了然：

Flash版（100B）：HumanEval+达891.74 TPS，BigCodeBench 801.48 TPS，LiveCodeBench 663.39 TPS；
Mini版（16B）：HumanEval+冲到1586.93 TPS，比Flash版还快；
不同领域速度：编码>数学>知识>推理>指令跟随，结构化数据场景速度优势最明显。

对比LLaDA2.0、Ling、Qwen3，LLaDA2.1的吞吐量遥遥领先，质量却只掉了一点点。

在这里插入图片描述

3. 多块编辑（MBE）：小代价换高质量

开了MBE后，各基准分数都稳定提升，尤其是推理和编码任务，吞吐量只是小幅下降：

Flash版ZebraLogic：分数从84.20涨到88.20，TPF从5.80降到5.03；
LiveCodeBench：分数从44.05涨到46.48，TPF从6.48降到5.62。

在这里插入图片描述

六、总结一下

LLaDA 2.1的突破让我们看到，AI没必要一直像挤牙膏一样逐字生成。

这种全局进化的模式一旦普及，AI写作和编程将从打字机时代跨入显影时代，一眨眼全文就位。

这种瞬时生成的快感将彻底重塑交互节奏，让实时协作真正变得丝滑无感。

这种高效率也意味着算力成本的断崖式下跌。当千亿参数的大模型能在随身设备上秒开秒回，AI就不再是昂贵的云端奢侈品，而是像空气一样无处不在的随身智囊。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

目标检测技术：从传统到AI革命

2020年后，基于Transformer的检测器（如DETR）兴起，彻底改变了目标检测的流程。DETR使用全局注意力机制，无需手工设计锚框或非极大值抑制（NMS），实现了真正的端到端检测。传统方法依赖手工设计的特征和两阶段检测器（如Faster R-CNN），而现代方法更倾向于端到端训练、自监督学习和Transformer架构。这些变化共同推动目标检测从特定场景的专用工具，发展为通用视觉理解系统的

2048 AI社区

如何在大数据领域构建高效分布式存储系统

大数据场景下，数据具有海量性（单集群PB级）多样性（结构化/非结构化）高并发（百万QPS）低延迟（毫秒级响应）四大特征。传统集中式存储（如SAN/NAS）受限于单节点容量与性能瓶颈，无法满足需求。本文聚焦分布式存储系统的架构设计、核心技术实现、工程优化三大方向，覆盖块存储、文件存储、对象存储三类主流形态，适用于大数据分析、AI训练、日志存储等典型场景。核心概念：定义分布式存储并区分主流类型；关键技