智谱首席科学家唐杰：领域大模型是伪命题！AI模型应用的第一性不应是创造新App，在线学习和自我评估是新Scaling范式

唐杰认为，在 AGI 尚未实现之前，领域模型会长期存在，其背后更多是应用企业的战略选择——不愿意在 AI 企业面前完全失去主导权，希望通过领域 know-how 构建护城河，把 AI 驯化为工具。最近，清华大学教授、智谱AI首席科学家唐杰发了一条长微博，总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力，再到Agent、多模态和具身智能的发展，其中有不少亮点。

我很哇塞耶

615人浏览 · 2025-12-26 14:26:15

我很哇塞耶 · 2025-12-26 14:26:15 发布

唐杰认为，在 AGI 尚未实现之前，领域模型会长期存在，其背后更多是应用企业的战略选择——不愿意在 AI 企业面前完全失去主导权，希望通过领域 know-how 构建护城河，把 AI 驯化为工具。

最近，清华大学教授、智谱AI首席科学家唐杰发了一条长微博，总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力，再到Agent、多模态和具身智能的发展，其中有不少亮点。

唐杰教授这段话，本质上是在回答一个问题：大模型正在从“学会世界”走向“进入世界”，而真正的挑战已经从智能本身，转移到了如何把智能变成现实生产力。

他强调，Agent的落地是大模型从认知系统转变为生产系统的关键一步，但目前的问题在于，不同 agent 环境之间的泛化和迁移依然极其困难，只能不断增加更多环境数据，以及针对不同环境的强化学习。

唐杰提出了AI应用的第一性原理：“AI 模型应用的第一性原理不应该是创造新的 App，它的本质是 AGI 替代人类工作，因此研发替代不同工种的 AI 是应用的关键。”

此外，他还指出模型的自学习、自迭代会是下一个阶段必然具有的能力，在线学习和自我评估可能成为下一个 Scaling 范式。

1.预训练没死，但接下来重点是中后训练

首先在预训练层面，唐杰教授的判断非常明确也非常务实。

经过过去几年的大规模预训练，大模型已经系统性地掌握了世界常识，并具备了基础推理能力。从工程效率的角度看，更多数据、更大参数、更充分的算力利用，依然是提升基座模型能力最直接、最有效的方式。

也就是说，scaling 并没有失效，它依然是当前阶段性价比最高的路径。行业里关于“scaling 是否走到尽头”的争论，更多是在讨论边际收益是否下降，而不是它是否仍然成立。

问题在于，预训练解决的是“平均意义上的智能”，并不能保证模型在真实世界中的可用性。唐杰教授在这里重点讨论了激活对齐与推理增强：随着通用 benchmark 的普及，模型在标准化测试上的表现越来越好，但这同时也带来了过拟合风险——模型变得更擅长“考试”，却未必更擅长应对真实、复杂、长尾的场景。

类似的问题，Ilya Sutskever在前段时间的采访中也提到过：当前的大语言模型在高难度评测上表现优异，能拿数学奥赛（IMO）的金牌，但在一些简单任务中仍会出错。

Karpathy在其年终总结中表示，自己“在 2025 年对基准测试产生了普遍的冷感和不信任”，原因是在典型的刷榜流程中，实验室团队不可避免地会在基准测试所占据的嵌入空间小角落周围构建训练环境，使大模型在这些领域附近的能力会突飞猛进。

但结果很有可能是，我们刷爆了所有基准测试，但依然没有实现AGI。

现实环境的问题往往分布不均、边界模糊、变化频繁，真正决定用户体感的，恰恰是这些 benchmark 覆盖不到的角落。因此，如何让模型更快、更稳地对齐真实场景，尤其是激活长尾能力，成为新的关键。这也是 mid-training 和 post-training 价值凸显的原因：它们让模型不只是“更聪明”，而是“更好用”。

2.Agent 是模型进入现实世界的关键

唐杰用了一个形象的比喻：

“大模型就像一个人不停地学习，一直学到博士，也只是知识积累，还没有转化为实际生产力；而Agent则是模型能力扩展的里程碑，标志着大模型真正进入了人类真实世界。”

值得注意的是，agent 的实现路径也在发生变化：过去更多依赖应用层编排，而现在 agent 行为和数据正逐步被纳入模型训练过程本身，以增强通用性。

但真正的难点并没有消失，不同 agent 环境之间的泛化和迁移依然极其困难。现实可行的解法仍然相当“朴素”：更多环境数据，以及针对不同环境的强化学习。

3.模型记忆是必需能力

唐杰认为：模型要在真实环境中行动，记忆能力是必需的。他用人类记忆结构做了一个很有启发性的类比：

短期记忆，对应Context
中期记忆，对应RAG
长期记忆，对应模型参数
人类历史，对应公共知识库

当前的大模型体系中，这些机制各自解决了一部分问题，但整体仍然不完善。

一种看似直接的思路是，通过超长 context 和记忆压缩，把更多信息直接“塞进”模型的上下文中，从而同时覆盖短期和中期记忆。

但真正棘手的问题在于：如何迭代模型已有的知识、如何修改模型参数而不引发灾难性遗忘。这仍然是一个悬而未决的核心难题。

4.在线学习和自我评估，可能是下一个 Scaling 范式

一旦引入记忆机制，在线学习就自然成为下一个焦点。

现在的模型是“离线”的，训练好就不变了。这有几个问题：模型不能真正自我迭代，重新训练浪费资源，还会丢失大量真实交互数据。

唐杰认为，具备自学习、自进化能力的模型，几乎是下一个阶段的必然形态，而在线学习的前提是模型具备自我评估能力。

换句话说，模型必须能够判断“自己对还是不对”，哪怕只是概率意义上的判断，也足以形成优化目标。如果这一点能够成立，那么自我评估机制本身，可能会成为下一种新的 scaling 范式，也就是从“堆资源”走向“自我进化”。

唐杰提到了几个词：continual learning、real time learning、online learning。

关于这一点，OpenAI 的前联合创始人John Schulman以及谷歌DeepMind CEO Demis Hassabis 也都发表过类似观点。Demis曾指出，大模型的持续在线学习能力仍是通往AGI的重要缺失环节；而 Schulman则认为短时间内上下文学习非常强，几乎无可替代。

这与 Karpathy 提到的可验证奖励的强化学习（RLVR）也有相通之处。RLVR 的核心思路就是让 LLM 在一系列「答案可以自动验证」的环境中训练，比如数学题、编程挑战等。神奇的是，经过这种训练，模型会自发地「学会思考」：它们开始把复杂问题拆解成中间步骤，并摸索出各种解题策略，比如反复推敲、来回验证。

如果这个机制能泛化到更多场景，在线学习就有可能实现。