SBD(Meta-AI)：AI写文章太慢？科学家给它装上了“预言打字机”

新方法“集合块解码”让AI像预言家般跳跃输出关键词，再智能补全，速度飙升3-5倍！由Meta与牛津团队提出，无需重训模型，即插即用。告别逐字龟速，迎来“预言打字机”时代。

happyprince

402人浏览 · 2025-09-06 12:08:12

happyprince · 2025-09-06 12:08:12 发布

摘要:新方法“集合块解码”让AI像预言家般跳跃输出关键词，再智能补全，速度飙升3-5倍！由Meta与牛津团队提出，无需重训模型，即插即用。告别逐字龟速，迎来“预言打字机”时代。

你有没有试过跟AI聊天，等它慢悠悠地一个字一个字蹦出来，急得你想替它敲键盘？就像排队买奶茶，前面的人一个一个点单，店员一杯一杯做——效率低到让你怀疑人生。现在的大型语言模型（比如帮你写邮件、编故事的那些AI），其实也正卡在这个“逐字输出”的瓶颈上。它们像被设定成“打字机模式”，必须等前一个字敲完，才能思考下一个字该打什么。这不仅慢，还特别耗电、烧显卡。

问题就出在“自回归生成”这个听起来高大上的词儿上。翻译成人话就是：AI必须按顺序、一个字一个字往外蹦。就像你写作文，不能跳着写第三段再回头补第一段——AI也一样。每生成一个字，它都要把之前所有字重新“读”一遍，再算下一个字的概率。生成1000个字？那就得跑1000次计算！这种“龟速流水线”让AI在手机、平板甚至普通电脑上都跑得吃力，更别说实时对话或长文创作了。

过去人们想过不少办法加速，比如“投机解码”——让一个小弟AI先猜几个字，大哥AI再快速审核。或者“块解码”，一次吐出几个连续的字。但这些方法要么容易翻车（猜错了还得重来），要么不够灵活（只能连续输出，不能跳着写）。举个生活化的例子：

想象你在玩填字游戏，旧方法就像必须从左到右、一行一行填，哪怕你知道右下角那个空是“猫”，也得等填完前面所有格子才能写。另一个例子：你让AI续写《哈利波特》，它想直接写出“他挥动魔杖念出‘除你武器’”，但系统硬逼它先打出“他”，再算“挥”，再算“动”……中间任何一个字卡壳，整句话就得重来。

直到2025年9月，来自Meta AI、牛津大学和以色列魏茨曼科学研究所的一群聪明脑袋——Itai Gat、Heli Ben-Hamu、Marton Havasi 等九位作者——甩出了一篇炸裂论文：《Set Block Decoding is a Language Model Inference Accelerator》（集合块解码：一种语言模型推理加速器）。他们不修修补补，而是直接给AI换了个“大脑工作模式”。

他们的秘密武器叫 “集合块解码”（Set Block Decoding, SBD） ——听名字玄乎，其实原理超有趣。想象AI写作团队里突然多了三个“预言专员”：

🔹 “跳跃预测员”小跳：
他的任务不是按顺序猜字，而是像玩“大家来找茬”一样，一眼扫过整段空白，直接圈出几个“最有把握的位置”。比如他知道开头第一个字是“昨”，结尾倒数第三个字肯定是“雨”，中间第五个字八成是“天”——好，这三个位置，我先填！

🔹 “扩散策略师”老扩：
他负责把“离散扩散模型”（一种原本用于图像生成的数学工具，你可以理解为“从模糊猜清晰”的侦探术）搬进文字世界。他告诉小跳：“别怕跳着写！就算中间漏了几个字，我们也能像拼图一样，从边缘往中心推，逐步补全。” 这招让AI敢大胆“隔空取字”，不怕断档。

🔹 “缓存管家”阿缓：
最关键的是，这位管家确保整个过程“不返工”。他用“精确KV缓存”技术（你可以想象成AI的记忆笔记本），把每次计算的结果都记下来，下次直接调用，绝不重复劳动。哪怕小跳跳着写字，阿缓也能瞬间把上下文拼接得天衣无缝。

这三位专员配合起来有多强？论文里拿Llama-3.1 8B 和 Qwen-3 8B 两个主流大模型做了实验：只需3到5次“集体出击”，就能完成原本需要10次以上“单字苦干”的任务量，速度飙升3-5倍，而且质量丝毫不打折！ 更妙的是，这套系统不需要重头训练模型，只要对现有AI稍作微调（fine-tuning）就能上岗，堪称“即插即用型外挂”。

回到我们之前的例子：
现在AI写《哈利波特》续集，小跳一看上下文，直接锁定三个关键词位置：“挥动”、“魔杖”、“除你武器”，啪啪啪三下填好；老扩根据这三个锚点，迅速补全中间的“他”、“念出”；阿缓全程记录状态，确保语句连贯。一整句话瞬间成型，不用再一个字一个字憋半天。

从“打字机模式”到“预言打字机”，这是AI生成效率的一次量子跃迁。

未来，这项技术可能让AI助手在手机上秒回长文，让游戏NPC实时生成剧情对话，甚至让盲人阅读器以接近人声的速度“念书”。更重要的是，它打开了“非顺序生成”的大门——也许不久后，AI能像人类作家一样，先写高潮再补开头，先定结局再铺伏笔。

科技的魅力，就在于把不可能变成“怎么没想到这么简单”。SBD没有发明新轮子，只是教会AI：你不必活得像个打字机，你可以是个预言家。

参考文献：
Gat, I., Ben-Hamu, H., Havasi, M., Haziza, D., Reizenstein, J., Synnaeve, G., Lopez-Paz, D., Karrer, B., & Lipman, Y. (2025). Set Block Decoding is a Language Model Inference Accelerator. arXiv preprint arXiv:2509.04185. https://doi.org/10.48550/arXiv.2509.04185

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Docker 容器中多进程的坑

❌CMD ["uvicorn", "main:app", "--workers", "4"] # 状态隔离问题✅CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8596"] # 单进程核心原则：一个容器一个进程- Docker 的设计哲学水平扩展而非垂直扩展- 多容器而非多进程状态外部化- 如果必须多进程，状态要存储在外部中小

2048 AI社区

C++ stl初步（三）set，map 完结篇

函数：insert(x)erase(x) find(x)查找元素lower_bound（x） upper_bound(x)map使用红黑树(red_black tree)，数据结构来实现，具有较快的插入，删除，查找操作的时间复杂度o(logN)map是一种关联容器，用于存储一组键值对(key-value pairs),其中每个键(key)都是唯一(不相同)的。set中的元素是唯一的，即不允许重复的

2048 AI社区

PyTorch 神经网络工具箱学习笔记

对比维度nn.Module用法先实例化，再以函数形式调用直接调用函数，传入数据和参数参数管理自动管理可学习参数需手动定义和传入参数与容器配合支持（如 nn.Sequential）不支持状态切换（如 dropout）自动切换（model.eval ()）需手动控制（如设置 train_flag）适用场景构建可训练层（Linear、Conv2d）激活函数、池化层、损失计算这是最基础也最灵活的方式，适用