一文讲清如果大模型不再预测下一个词，那它该预测什么？看完这一篇你就知道了！

本文介绍腾讯提出的连续自回归语言模型（CALM）技术，它通过将语言建模从"预测下一个词元"升级为"预测下一个文本块"，解决了传统LLM生成效率低的问题。CALM包含三大组件：超级压缩/解压器、无似然语言建模框架及评估采样系统，理论上可将生成速度提升K倍。实验证明，该技术在计算成本显著降低（训练减少13%，推理减少37%）的情况下，性能与基线模型相当，为提升LLM效率开辟了新赛道。

嘴巴吃糖了

442人浏览 · 2025-11-26 11:57:02

嘴巴吃糖了 · 2025-11-26 11:57:02 发布

前言

今天我们来分享一个腾讯最近提出的新技术，叫做 连续自回归语言模型（CALM）。你可以把它理解成一种给大语言模型（LLM）装上「涡轮增压」的方法，让它在生成内容时变得更快、更高效。

一、起点：为什么现在的 LLM 天生就很慢？

我们知道，像 GPT 这样的模型在写文章、回答问题时，都是一个词一个词往外蹦的。这里说的「词」在技术上叫词元（token）。

这种方式有个天生的瓶颈：每个词元包含的信息太少了！

打个比方，你想让模型写一句话：「今天天气真好」。它需要这么一步步生成：

预测「今」
看到「今」，预测「天」
看到「今天」，预测「天」
看到「今天天」，预测「气」

……以此类推。

这就像让你用单个字母来写一篇英文文章，每写一个字母都要停下来思考下一个，效率自然高不起来。模型明明有几千亿个参数，聪明得不得了，却在干一件「挤牙膏」式的、信息密度极低的活儿。这就是问题的核心。

二、CALM 的核心思想：从「蹦词」到「蹦句子块」

既然一个词一个词地蹦太慢，那我们能不能让它一次「蹦」一个短语，甚至一小段话呢？

这就是 CALM 的核心思想：它要把语言建模从 「预测下一个词元」 升级为 「预测下一个文本块（chunk）」。

具体怎么做呢？

压缩：我们先设计一个「压缩器」，把一个包含 K 个词元的文本块（比如 ["今天", "天气", "真", "好"]）压缩成一个单一的、浓缩了所有信息的连续向量（可以想象成一个包含很多小数的列表，比如 [0.12, -0.8, 0.55, …]）。
预测：然后，我们让语言模型去学习预测这个「浓缩向量」。
解压：预测出新向量后，再用「解压器」把它还原成 K 个词元。

这么一来，原来需要 K 步才能完成的工作，现在 1 步就搞定了。生成速度理论上可以提升 K 倍。

但这听起来简单，实现起来却有几个难题：

表示难题：怎么设计一个完美的「压缩/解压器」？
训练难题：怎么教模型去预测一个「向量」，而不是一个「词」？
评估难题：怎么评价模型预测的向量好不好？
采样难题：怎么控制模型的「创造力」（比如温度采样）？

CALM 这篇论文为这四大难题提供了一整套解决方案。

三、CALM 的三大组件

组件一：超级压缩/解压器 (Autoencoder)

这个压缩/解压器在学术上叫 自编码器 (Autoencoder, AE) 。它的工作就是学习文本块和浓缩向量之间的双向转换。它必须做到两点：

1. 高保真 (High Fidelity) ：压缩再解压后，文本内容不能变。「今天天气真好」 进去，就必须原封不动地出来。

它的训练目标很简单，就是让解压出来的词元和原始词元一模一样。用数学公式表达就是最小化交叉熵损失：

别怕公式，它的意思就是：给定压缩后的向量，让解压器能以最大概率生成原始的每个词。

2. 鲁棒性 (Robustness) ：这是更关键的一点。因为下游的语言模型在预测向量时，不可能 100% 精准。如果压缩后的向量稍微变一点点（比如 0.12 变成了 0.121），解压出来的文本就变成了胡言乱语，那整个系统就崩了。

论文用了一些技巧来让这个潜在空间变得平滑、容错性强：

变分自编码器 (VAE) ：不直接生成一个固定的向量，而是生成一个「概率云」（一个均值和方差）。这让解码器学会了处理「模糊」的输入。
KL 裁剪：防止向量的某些维度「偷懒」，确保每个维度都用来编码信息。
Dropout：训练时随机遮掉一些输入词元或向量的一部分，强迫模型学会从不完整的信息中恢复内容，就像做「完形填空」，这大大增强了它的抗干扰能力。

经过这番改造，我们就有了一个既能无损压缩，又能容忍一定误差的强大 AE。

组件二：新的游戏规则 (无似然语言建模)

有了 AE，我们的任务变成了预测下一个浓缩向量。但问题来了：

传统的语言模型预测下一个词，是在一个有限的词汇表（比如 10 万个词）里做选择题。我们可以计算出每个词的概率，然后用最大似然估计来训练。

但现在，我们要预测一个连续向量，它的可能性是无穷无尽的（每个维度的小数都可以无限变化）。这就像从「选择题」变成了「开放式问答题」，没法再计算概率了。

怎么办？这就需要引入「无似然 (likelihood-free)」训练。论文采用了一种基于能量损失 (Energy Loss) 的方法。你不需要理解复杂的数学理论，只需要记住它的核心思想：

这个损失函数像一个裁判，它通过两个标准来打分：

保真度：模型生成的多个候选向量，应该尽可能地靠近「正确答案」向量。
多样性：模型生成的多个候选向量之间，应该互相拉远一点，不要全都挤在一个地方（防止模式坍塌）。

用公式表达是这样的：

保真度项：让预测值靠近真实值多样性项：让不同预测值互相拉开

这个公式完全基于样本间的距离来计算，绕开了计算概率的难题。

不过，这里其实有一个妥协的设计：在生成时，模型不是直接把上一步预测的向量当作输入，而是先把它解压成词元，再把这些词元作为输入。这相当于让 Transformer 主干网络一直在它最熟悉的环境（离散词元）里工作，保证了性能。

组件三：新的计分板和控制器 (评估与采样)

既然不能用传统的 Perplexity（困惑度）来评估模型，论文提出了一个新指标 BrierLM。它同样不需要计算概率，而是通过巧妙的采样来评估模型的「预测质量」和「自信程度」。实验证明，这个新指标和传统指标高度相关，非常可靠。

另外，我们通常用「温度」来控制模型的创造性（温度高，天马行空；温度低，严谨保守）。传统方法是调整 logits 的大小，但这在无似然框架下也失效了。

核心思想：一个事件的概率是，那么连续重复次都发生这件事的概率就是。这不就相当于给概率加了个指数吗？这正是温度采样想做的事。
实用算法：论文设计了一个批量近似算法。它一次性生成一大批（比如 1000 个）候选向量，然后通过统计和组合搜索，来模拟出不同温度下的采样效果。

四、实验结果如何？

又快又好：实验表明，CALM 模型在计算成本显著降低（训练减少 13%，推理减少 37%）的情况下，性能和强大的基线模型相当。
K 是新杠杆：增加文本块大小 K（比如从 2 增加到 4），模型的「性价比」曲线持续变好，证明了「增加语义带宽」这条路是走得通的。

总结

CALM 的贡献：

开辟新赛道：把语言建模从「预测词元」变成了「预测向量」，为提升 LLM 效率打开了一扇全新的大门。
提供了全套工具：系统性地解决了新范式下的训练、评估和采样问题，非常完整。
验证了可行性：用实验证明了这条路不仅走得通，而且效果很好。

当然，它也有一些挑战：

训练过程更复杂，分成了两步（先训练 AE，再训练语言模型）。
性能的上限受限于 AE 的压缩质量。
很多现有的 LLM 技术需要改造才能应用在这个框架上。

普通人如何抓住AI大模型的风口？

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述

AI大模型开发工程师对AI大模型需要了解到什么程度呢？我们先看一下招聘需求：

在这里插入图片描述

知道人家要什么能力，一切就好办了！我整理了AI大模型开发工程师需要掌握的知识如下：

大模型基础知识

你得知道市面上的大模型产品生态和产品线；还要了解Llama、Qwen等开源大模型与OpenAI等闭源模型的能力差异；以及了解开源模型的二次开发优势，以及闭源模型的商业化限制，等等。

了解这些技术的目的在于建立与算法工程师的共通语言，确保能够沟通项目需求，同时具备管理AI项目进展、合理分配项目资源、把握和控制项目成本的能力。

产品经理还需要有业务sense，这其实就又回到了产品人的看家本领上。我们知道先阶段AI的局限性还非常大，模型生成的内容不理想甚至错误的情况屡见不鲜。因此AI产品经理看技术，更多的是从技术边界、成本等角度出发，选择合适的技术方案来实现需求，甚至用业务来补足技术的短板。

AI Agent

现阶段，AI Agent的发展可谓是百花齐放，甚至有人说，Agent就是未来应用该有的样子，所以这个LLM的重要分支，必须要掌握。

Agent，中文名为“智能体”，由控制端（Brain）、感知端（Perception）和行动端（Action）组成，是一种能够在特定环境中自主行动、感知环境、做出决策并与其他Agent或人类进行交互的计算机程序或实体。简单来说就是给大模型这个大脑装上“记忆”、装上“手”和“脚”，让它自动完成工作。

Agent的核心特性

自主性： 能够独立做出决策，不依赖人类的直接控制。

适应性： 能够根据环境的变化调整其行为。

交互性： 能够与人类或其他系统进行有效沟通和交互。

对于大模型开发工程师来说，学习Agent更多的是理解它的设计理念和工作方式。零代码的大模型应用开发平台也有很多，比如dify、coze，拿来做一个小项目，你就会发现，其实并不难。

AI 应用项目开发流程

如果产品形态和开发模式都和过去不一样了，那还画啥原型？怎么排项目周期？这将深刻影响产品经理这个岗位本身的价值构成，所以每个AI产品经理都必须要了解它。

看着都是新词，其实接触起来，也不难。

从0到1的大模型系统学习籽料

最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师（吴文俊奖得主）
在这里插入图片描述

给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。
在这里插入图片描述

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

基础篇，包括了大模型的基本情况，核心原理，带你认识了解大模型提示词，Transformer架构，预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门AI大模型
进阶篇，你将掌握RAG，Langchain、Agent的核心原理和应用，学习如何微调大模型，让大模型更适合自己的行业需求，私有化部署大模型，让自己的数据更加安全
项目实战篇，会手把手一步步带着大家练习企业级落地项目，比如电商行业的智能客服、智能销售项目，教育行业的智慧校园、智能辅导项目等等