刘知远语出惊人!中国大模型登 Nature 封面,展望明年“用AI造AI”,收藏这篇就够了!
过去半个世纪,全球科技产业的资本开支与创新节奏,都和一个规律紧密相连,那就是摩尔定律——芯片性能每18个月翻一番。在摩尔定律之外,还有一个“安迪-比尔定律”,它讲的是,摩尔定律所主导的硬件性能提升的红利,会迅速被软件复杂度的增加所抵消。安迪指的是英特尔前CEO安迪·格鲁夫,而比尔,指的是微软创始人比尔·盖茨。这种“硬件供给、软件消耗”的螺旋上升,驱动了PC与互联网时代的产业进化。时移世易,安迪、比
过去半个世纪,全球科技产业的资本开支与创新节奏,都和一个规律紧密相连,那就是摩尔定律——芯片性能每18个月翻一番。
在摩尔定律之外,还有一个“安迪-比尔定律”,它讲的是,摩尔定律所主导的硬件性能提升的红利,会迅速被软件复杂度的增加所抵消。安迪指的是英特尔前CEO安迪·格鲁夫,而比尔,指的是微软创始人比尔·盖茨。
这种“硬件供给、软件消耗”的螺旋上升,驱动了PC与互联网时代的产业进化。
时移世易,安迪、比尔都已经退出产业一线,但是规律的底层逻辑并未改变,而且被新的“安迪·比尔”推向更高的极致。
ChatGPT的爆发拉开了生成式人工智能时代的大幕,在Scaling Law(规模法则)的主导下,模型参数指数级膨胀,软件对算力的索取远超摩尔定律的供给速度,AI发展的边际成本急剧上升。
当硬件供给遭遇能源、数据等天花板时,旧的“安迪比尔”式增长范式开始失效。
产业需要一场逆向革命。大模型作为AI时代的“软件”,需要通过极致的算法与工程化重构,在现有硬件上爆发更强的能力。
2025年,中国大模型公司成为这一路径的最坚定实践者。
从DeepSeek V3通过细粒度混合专家(MoE)架构以1/10算力成本对标顶尖模型,到Kimi等团队在稀疏注意力机制上的突破,被称为“东方力量”的中国大模型公司,正试图用架构创新努力拉平客观存在的算力差距。
清华大学计算机系副教授刘知远及其联合创立的面壁智能团队,也是其中的典型代表。他们发布的MiniCPM(“小钢炮”)系列模型,仅用约1/10的参数规模,即可承载对标云端大模型的智能水平,成为端侧高效AI的案例。
2025年11月,刘知远团队的研究登上全球顶级学术期刊《自然·机器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法则”(Densing Law)。
基于对51个主流大模型的严谨回测,论文揭示了惊人的非线性进化规律:从2023年到2025年,大模型的智能密度以每3.5个月翻倍的速度狂飙。
这是一条比摩尔定律陡峭5倍的进化曲线。这意味着,每100天,就可以用一半参数量实现当前最优模型相当的性能。每100天成本减半,一年后成本就可能降至原来的十分之一。
如此快的迭代速度,对技术创新、产业落地提出了不同以往的挑战。刘知远在与腾讯科技的对话中直言:如果一家大模型公司发布一款新的模型后“3到6个月无法收回成本”,这家公司的商业模式就不可持续,因为后来者很快就能以四分之一的资源实现同等能力。
当研发迭代周期被压缩至百天量级,人类的智力供给已逼近极限,产业的终极形态必将发生质变。工业革命的标志是机器制造机器,而刘知远期待的AI时代生产力标志,将是“用AI制造AI”。
唯有如此,才能支撑这场超越摩尔定律的智能风暴。
腾讯科技:我们今天的主题是您和团队最新发表在《自然·机器智能》上的关于大模型“能力密度”(Densing Law)的论文。您能介绍一下这项研究的背景吗?
刘知远: 虽然这篇论文是 2025 年发表的,但这个想法早在 2024 年上半年就已经开始萌生。2023 年初,ChatGPT 的出现引发了全球对大模型的追逐,中国团队也不例外,当时大家都在研究如何复现 ChatGPT。到了 2023 年下半年,一线的团队基本完成了复现工作。
那时候我们开始思考大模型未来的发展路径。有些团队可能会继续沿用 ChatGPT 的技术路线,通过增加参数规模、投入更多数据来训练 GPT-4 水平的模型。这条路线虽然确定性高,但意味着要花费更多经费,这显然不是一条可持续的发展路径。你不可能无限地增加成本来换取更强的能力。
因此,我们开始探讨如何用更低的成本、更高的质量来实现模型能力。
2024 年初,我们推出的 Mini CPM 系列模型验证了这一点:我们可以用更少的参数,实现历史上需要几倍甚至几十倍参数才能达到的能力。这是经验性的结果,我们想寻找其背后的规律,于是促成了 2024 年对“密度法则”的探索。

图:Densing Law论文登上Nature Machine Intelligence封面
腾讯科技:这项研究是否因为中国的国情,使我们更重视大模型的效率问题?它在国内外是独一无二的吗?
刘知远: 追求效率当然有中国算力有限的国情因素。我们必须关注如何用更少的算力实现更高质量的模型。这也是为什么 2024 年下半年,《经济学人》的一篇封面文章提到,中国企业正通过技术创新绕过“算力墙”,并举了面壁智能和 DeepSeek 的例子。
但同时,追求效率也符合人工智能本身的发展规律。人工智能是一场堪比工业革命的科技浪潮,如果要让每个人都受益,技术就不能昂贵。我们必须像历史上任何一次科技革命那样,用更低的成本实现更高质量的产品和服务。
因此,我们自信地认为,密度法则对人工智能的未来发展具有重要意义。
腾讯科技:在“密度法则”中,一个关键概念是量化“智能”,但这本身是一个难题。在研究开始前,您为什么觉得这件事是行得通的?
刘知远: 这个问题问得非常好。实际上,我们在密度法则这篇论文里并没有真正解决“如何度量智能总量”这个科学问题,而是找了一条取巧的办法:找一个参照物(Reference Model)。
我们假设用同一套技术方案训练的模型,无论尺寸大小,其密度大致相同。我们将这套方案训练出的模型作为 Reference Model,并假设其密度为 1。然后,我们观察目标模型达到某种智能水平时,Reference Model 需要多大参数才能达到相同水平。通过比较两者达到相同能力所需的参数量,我们就可以算出目标模型的相对密度。这种方法规避了直接计算模型内部智能总量的难题。
当然,如何衡量智能的总量(Mass)是未来几年人工智能需要攻克的基础科学问题。历史上任何大的科技革命背后都有科学理论支撑,如信息论之于通信,热力学之于蒸汽机。智能科学未来也需要解决如何衡量智能总量的问题。

腾讯科技:您在2024年WAIC期间曾提到模型的“密度法则”周期是8个月,但最终论文的结果是3.5个月。为什么进化的速度比您预期的快这么多?
刘知远: 2024年年中我们刚有这个想法时,研究尚在初期,观测的时间跨度和模型数量都有限,所以当时的数据不够稳定。我们2024年下半年发布的版本算出来是3.3个月,到今年正式发表时,我们补充了2025年的新模型数据,周期修正为3.5个月。
其实,具体的周期是三个月还是八个月并非最重要,最重要的是,这个速度远远快于摩尔定律的18个月。这意味着我们正以前所未有的速度迎来一场智能革命。每100天成本减半,一年后成本就可能降至原来的十分之一。
同时,我们确实观察到了一个加速现象。2023年之前,这个周期接近五个月;2023年之后,则缩短到三个多月。我们猜测,这是因为ChatGPT引发了全球性的关注,更多的资源和人才投入加速了技术创新。
所以,“密度法则”并非自然规律,而是我们人类社会在该科技领域的一种“自我实现”:投入越多,密度增长越快。

腾讯科技: 刚才提到投入,大模型有暴力美学的 Scaling Law,您觉得 Densing Law 和 Scaling Law 是统一的还是矛盾的?
刘知远:我认为它们是硬币的两面,相辅相成。“规模法则”的表象是模型越大、能力越强,其背后是我们找到了一条通用的智能构造方案(Transformer架构+序列预测学习),使得在一个模型内持续增加智能成为可能。它开启了通往通用人工智能的道路。在坐标系中,“规模法则”是一条参数规模越大、模型能力越强的持续上升曲线。
而“密度法则”告诉我们,通过在模型架构、数据治理、学习方法等方面的持续技术创新,我们可以用更小的参数承载更多的智能,从而找到一条更加“陡峭”的“规模法则”曲线。也就是说,用相同的参数实现更强的能力,或者用更少的参数实现相同的能力。所以,没有“规模法则”就不会有“密度法则”,两者都是人工智能发展中至关重要的规律。
腾讯科技:“规模法则”似乎正面临数据、算力和能源的天花板。密度法则何时会遇到瓶颈?
刘知远: Scaling Law的持续发展确实面临电力、算力、数据等约束。而 Densing Law 正是实现更可持续Scaling Law 的方式。通过技术创新提高密度,我们可以在算力或成本基本不变的情况下,持续提升模型能力。
例如DeepSeek V3宣称用 1/10 的算力实现同等能力,OpenAI 的 API 价格持续下降,都反映了内部通过技术创新用更小的模型提供同等服务。
当然,数据枯竭问题可能需要依赖另一项技术——大规模强化学习来解决,即让模型通过自我探索生成高质量数据进行学习。
腾讯科技:2025年有哪些让您觉得惊艳的技术突破,能让 Densing Law 更加陡峭?
刘知远:今年是模型架构创新的大年,主要有三个方向:
第一,以DeepSeek V3为代表的细粒度混合专家(MoE)架构走向成熟,通过稀疏激活少数专家来大幅提升计算效率。
第二,稀疏注意力(Sparse Attention)机制大行其道,通过减少注意力计算中的内容参与度,有效处理长序列。这两者分别优化了Transformer的FFN层和Attention层,实现了计算的“按需分配”。
第三,复兴循环神经网络(RNN)思想,通过与Transformer混合架构,利用其“记忆”机制降低计算复杂度。这些创新都在变相地提升模型密度。
此外,大规模强化学习的应用也取得了巨大飞跃,尤其在数学和代码领域,模型通过自我探索持续提升能力,暂时还看不到尽头。这解决了数据枯竭的问题。
腾讯科技: 您觉得密度法则能推广到多模态模型或世界模型吗?
刘知远: 我认为这是一个普遍规律。虽然不同领域的倍增周期可能不同,但只要是通用的、遵循 Scaling Law 的模型,未来也一定会遵循 Densing Law。就像芯片摩尔定律和电池密度提升一样,技术创新总是追求用更少的资源实现更高的性能。
腾讯科技:您如何看待谷歌最新发布的Gemini 3?它是否可被称为里程碑式的突破?
刘知远:我们内部认为Gemini 3是一个非常重要的里程碑。它在图像生成中对文字的控制达到了前所未有的高度,这表明其模型的可控性和对世界的理解能力达到了一个新水平。
我们推测,它不只依赖于Diffusion模型,很可能将自回归(Auto-regressive)的思想融入其中,实现了生成过程的逐层细化和高度一致性。历史上,所有文生图模型都难以处理好文字内容,Gemini 3的突破,在我看来是一个非常值得关注的新范式。
这也印证了密度法则:只要能实现某种智能,未来一定可以在更小的终端上运行。比如 Gemini 3 现在的能力,未来一定可以在手机、PC 或汽车芯片上跑起来。
腾讯科技: 现在还没有出现能替代智能手机的端侧 AI 设备,是不是因为 Densing Law 还没进化到位?
刘知远: 端侧设备的发展受限于多个因素。
第一,还没有形成好的端侧应用场景。现在的手机助手虽然用户多,但并未与硬件紧密结合。
第二,端侧技术生态尚未形成。AGI 发展还没收敛,模型能力还在持续提升,且在产品设计上还没法完全规避错误。就像早期的搜索引擎也是经过产品打磨才普及一样,AGI 结合智能终端也需要一个过程。一旦产品形态成熟,智能终端的广泛应用就会成为可能。
腾讯科技: 您提到 MiniCPM 4 可以看作一种“模型制程”,这个怎么理解?
刘知远: 我更愿意把这一代模型比作芯片制程。通过技术创新,我们形成了一套新的模型制程,无论构建什么尺寸的模型,其密度都更高。例如 MiniCPM 4 在处理长序列时速度提升了 5 倍,意味着可以用更少的计算量承载更强的能力。
但目前的挑战在于,硬件支持还不够好。我们正在努力做软硬协同优化,希望在消费级硬件上真正跑出理想状态。
腾讯科技: 这需要和高通、联发科等硬件厂商协同创新吗?
刘知远: 我们跟硬件厂商交流密切。但硬件厂商受摩尔定律 18 个月周期的影响,架构调整更审慎。而模型每 3 个月就进化一次。所以短期内是软件适配硬件,长期看硬件会针对稳定的新技术做优化。现在端侧芯片厂商已经在认真解决大模型运行的瓶颈,比如访存问题。
腾讯科技: 之前大家尝试过剪枝、量化等方法来做小模型,这和原生训练的高密度模型相比如何?
刘知远: 我们做过大量实验,剪枝、蒸馏、量化都会降低模型密度。量化通过后训练可以恢复一部分效果,是目前端侧比较落地的做法。但蒸馏现在已经融合进数据合成体系,不再是简单的“大蒸小”。剪枝目前还没找到保持密度的好方法。
就像你不能通过剪裁把 14nm 芯片变成 7nm 芯片一样,要把密度做高,必须从头构建一套复杂的原生技术体系,包括架构设计、数据治理、学习方法和软硬协同。这本身就是技术护城河。
腾讯科技:“密度法则”对产业界意味着什么?对于创业公司来说,机会在哪里?
刘知远:3.5个月的迭代周期意味着,任何一个投入巨资训练的大模型,如果不能在3到6个月内通过商业化收回成本,这种模式就很难持续。因为很快就会有技术更新的团队用更低的成本实现同样的能力。因此,云端API服务的竞争会极其惨烈,最终可能只会剩下几家拥有海量用户和强大技术迭代能力的头部厂商。
对于创业公司而言,机会可能在于“端侧智能”。端侧场景的约束条件非常明确(如功耗、算力、响应时间),这使得技术优势,即谁能把模型密度做得更高,成为唯一的竞争点,大厂的“钞能力”(如不计成本的投入)在这里难以发挥。虽然手机厂商也在高度关注,但它们的决策会更审慎。我们认为,端侧智能会先从智能座舱等对功耗不那么敏感的场景开始,而最终,AGI时代一定会有属于它自己的智能终端形态,这是我们希望探索的星辰大海。
腾讯科技: 面对算力军备竞赛和快速折旧,您怎么看泡沫论?
刘知远: 快速发展肯定伴随局部泡沫,但整体上我们正进入智能革命时代。
如果以 18 个月为周期,信息革命走了 50 个周期;如果 AI 也走 50 个周期,按现在的速度,大概到 2030-2035 年就能实现全球普惠的 AGI。
未来互联网的主体不再只是人,还有无数智能体。虽然训练模型的厂商会收敛,但推理算力需求会爆炸式增长。
腾讯科技: 李飞飞(美国国家工程院院士)说 AI 是文明级技术,您对这场革命乐观吗?
刘知远: 我相当乐观。
腾讯科技:如果AI变得无比强大,未来人类会不会无事可做?
刘知远:我不这样认为。未来一定是人机协同,人是把关人。
人类知识大爆炸导致我们只能成为细分专家,阻碍了跨领域创新。人工智能可以帮助我们成为知识的主人而不是奴隶,去探索宇宙、生命等更多未解之谜。
腾讯科技: 您2026年最期待的创新是什么?
刘知远: 我最期待“用 AI 制造 AI”。
明年一个重要节点是自主学习(Self-play)。目前的强化学习还依赖人类给标准答案,未来模型如果能自主判断探索结果的价值,就实现了自主学习。
在此基础上,结合密度法则的提升,我们有可能为每个人构建专属的、持续学习的个人大模型。
未来的生产标志就是“用 AI 制造 AI”。不再依赖有限的人力,而是由 AI 来赋能 AI 的研发和制造。这将是一个指数级加速的过程。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐

所有评论(0)