您知道的人工智能干货,第一时间送达

转自集智俱乐部,仅用于学术分享,如有侵权留言删除

导语

大语言模型已成为人工智能发展的重要里程碑。既有的规模法则表明,随着模型规模的扩大,LLM的性能会持续提升,但这也对训练与部署带来显著挑战。尽管业界不断尝试提升模型效率,却仍缺乏关于不同规模LLM的效率发展趋势与评价体系的统一共识。为解决性能与效率之间的张力,本文提出“能力密度”这一概念,用以衡量模型在单位参数上所体现的有效能力,从而在性能与效率两个维度上提供统一的评价框架。我们进一步给出一项经验性发现,即“密度定律”:LLM的能力密度随时间呈指数增长。基于多个主流基准的评估结果显示,开源LLM的最大能力密度大约每3.5个月翻倍。这意味着,实现同等性能所需的参数规模与推理成本均在指数下降,为高效LLM的开发策略提供了新的启示。

关键词:大语言模型(LLMs)、规模法则(Scaling Law)、能力密度(Capability Density)、密度定律(Densing Law)、效率评估(Efficiency Evaluation)

论文题目:Densing law of LLMs

论文链接:https://www.nature.com/articles/s42256-025-01137-0

发表时间:2025年11月6日

论文来源:Nature Machine Intelligence

能力密度的指数跃迁, 正在悄悄改变 AI 的未来

近两年,大模型的突飞猛进让人切身感受到“技术狂飙”,然而一个更耐人寻味的现象也随之浮现:模型能力不断提高,推理成本却在飞速下降;小模型越来越频繁地逼近甚至超越大模型;而“继续堆参数”似乎不再是性能提升的唯一途径。2025年11月6日发表于 Nature Machine Intelligence 的论文《Densing Law of LLMs》给出了一种颠覆性的解释——大模型正在从拼“规模”转向拼“密度”。研究发现,LLM的“能力密度”(capability density)正以指数速度增长,约每3.5个月翻一倍,这意味着达到同等性能所需的参数量大幅减少,推理成本呈指数级下降,端侧智能(在手机、PC等本地设备运行大模型)将比预期更早成熟。这不是简单的性能提升,而是一场关于效率的革命。让我们从这篇可能深刻影响未来五年的论文开始,重新理解大模型的进化方向。

过去衡量模型能力,业界普遍遵循“参数越大,性能越强”的直觉,但随着大量开源模型的涌现,这一直觉逻辑开始失灵,出现7B模型逼近甚至匹敌70B模型,4B模型在部分任务上超过13B模型,手机端模型也逐渐具备ChatGPT3.5的水平,而训练数据质量与训练策略的重要性日益凸显。这些现象共同指向一个事实——参数量已无法充分解释模型能力的差异,规模不再等同于质量。因此,真正需要关注的已不再是“模型有多大”,而是“模型的效率有多高”。

什么是“能力密度”?简单来说,它衡量的是模型“每个参数的含金量”。其定义为:能力密度 = 模型的有效能力 ÷ 实际参数量。这里的“有效能力”并非模型自身的参数规模,而是一个反推值:如果某模型达到特定性能,那么一套参考模型需要多少参数才能取得相同表现,这个等效参数量记为 N̂(此处的参考模型为研究者自建的一系列不同参数规模、结构一致、训练流程一致的小参数规模模型)。于是能力密度可写为 ρ = N̂ / N,用来刻画模型训练得是否“紧实”。例如,一个3B模型若达到参考模型6B的能力,则密度 ρ = 6 / 3 = 2,代表其单位参数效率极高;反之,若一个7B模型只能达到参考模型3B的水平,则 ρ < 1,说明其参数利用率偏低。本质上,能力密度回答的就是那一句:模型的每个参数到底“值不值钱”?

密度定律:能力密度正以指数方式增长

本研究中最重要的发现之一,是大模型的能力密度随时间呈现稳定的指数增长趋势。研究者选取五十余个近年来发布的开源基础模型,覆盖多个系列(如 Llama、Mistral、Gemma、Phi、DeepSeek、MiniCPM 等),并在多个主流基准(MMLU、BBH、MATH、HumanEval、MBPP)上进行统一评估。结果显示,模型的最大能力密度大约每 3.5 个月翻一倍,这一趋势在不同任务和不同模型之间都十分一致。

图 1|近年来开源大模型的能力密度趋势。每个点代表一个模型,圆点越大参数量越大。从图中可以看到,随着时间推移,能力密度的上界呈现清晰的指数增长。

这一指数增长趋势意味着:未来达到相同性能所需的参数量将持续减少。换言之,人们惯常认为的“大模型能力强、但成本高”的认知,将在未来不断被弱化。更令人兴奋的是,这种指数增长在新模型中体现得更为突出,特别是数据质量、训练策略更为精细的小模型,往往展现出远超其规模的能力密度。

能力密度提升的一个自然结果,是实现相同性能所需的实际参数量不断减少。与此同时,推理成本也正在以类似的指数速度下降。文章对多个高性能模型的API调用价格进行了整理,并展示了一个同样令人惊讶的趋势:模型的推理价格大约每2.6个月减半。2022 年 GPT-3.5 的价格约为每百万token需要20美元,而到了 2024 年,Gemini Flash的推理价格仅为0.075美元,相当于下降了超过260倍。

图 2|近年来几个主流语言模型的推理价格变化。性能优于 GPT-3.5 的大语言模型(LLMs)的应用程序接口(API)定价。线条连接各时间点定价最低的模型,最便宜模型的API定价呈指数下降。

推理成本的下降不仅来自模型能力密度的提升,也来自底层推理技术的优化,例如 FlashAttention、PagedAttention、量化推理格式、稀疏激活架构等。随着模型本身越来越“紧实”,推理成本的下降幅度也将持续扩大。

当密度定律遇上 Moore 定律: 端侧智能将提前爆发

当能力密度的指数增长与硬件性能的指数增长叠加时,一个更加激进的趋势会出现。过去数十年里,硬件晶体管密度大约每两年翻一倍;如今,大模型的能力密度每3.5个月翻一倍。两者的乘积效果意味着:在固定价格的硬件上,能够运行的“有效模型规模”约每88天翻一倍。

这预示着什么?预示着过去需要云端大模型才能实现的能力,未来将能在手机、电脑、平板等设备上高效运行。端侧 AI 的普及速度可能远超过我们目前的想象,隐私计算、低成本部署、离线大模型应用将因此迎来爆发式发展。

图 3|大模型的高性能正向小规模模型迁移,同时端侧可运行模型的能力快速提升(图片源于网络)。红色虚线区域代表接近GPT-4V水平的模型带宽,随着时间推移,越来越小的模型逐渐逼近这一性能区间;下方蓝色虚线趋势线展示了能够在端侧设备运行的模型能力不断上升。

高密度模型不是“压”出来的,而是“练”出来的

在参数规模快速被重新评估的背景下,一个看似合理的猜想是:既然参数越少越高效,那么剪枝、蒸馏、量化等模型压缩技术应该更容易得到高能力密度的小模型。但论文的实验结果却指向相反方向——压缩后的模型能力密度整体上并不比原模型高,甚至往往更低。其根本原因在于,压缩过程虽然减少了模型的实际参数量,却没有让模型获得足够的再训练,从而无法让这些“更轻”的参数真正承担起更高的能力负载。尤其是量化,虽然降低了内存和推理成本,但不可避免地带来一定的性能损失。因此,真正高密度的小模型,并不是“从大模型压缩而来”,而是“从一开始就为高密度而训练”的结果。

能力密度之所以能够持续提升,主要源于三方面的共同推动。首先,训练数据的规模与质量显著提高。以Llama系列为例,Llama-3 所使用的15万亿token数据不仅规模远超Llama-1的1.4万亿token,且在清洗与筛选流程上更加精细,这使模型能够在同样结构下学习到更丰富、更可靠的知识。其次,模型结构日益高效。以稀疏专家模型(MoE)为代表的新架构,使模型在推理时仅激活部分专家,从而以更低的计算量获得更强的表达能力,大幅提高“参数的利用率”。最后,训练算法不断演进。无论是将强化学习前移到预训练阶段,还是利用高质量的合成数据和“弱到强”(weak-to-strong)训练策略,这些方法都让模型能够在固定参数量下挖掘出更高的能力上限。这些因素共同作用,使得模型在“单位参数上可以学习到更多能力”,从而推动能力密度不断攀升。

当然,谨慎来说能力密度的增长不可能无限持续。信息论告诉我们,每个参数能够存储的信息量是有限的,模型参数的表达能力也有理论上界。随着模型的训练方式、数据质量和结构不断提升,能力密度的增长最终将遇到瓶颈。届时,如果要继续突破当前框架的限制,可能需要依赖全新的技术范式,例如量子计算、类脑计算或其他尚未成熟的计算架构。尽管如此,在可预见的未来几年中,能力密度仍会保持高速增长,模型变“密”的趋势不会减弱。

密度定律不仅是一个科学观察,更是一个具有产业指导意义的趋势。对于模型研发而言,它提示我们,未来的竞争不再是单纯扩大参数规模,而是追求“更高密度”的训练方法与更高质量的数据;对于企业而言,可以据此预测未来模型成本的下降趋势,从而更合理安排AI投入;对于硬件和应用产业,则意味着端侧智能将迎来快速扩张,本地运行大模型将从技术挑战变成新常态。

从“大”到“密”,AI 的进化正在加速重写

《Densing Law of LLMs》揭示的,是一种隐藏在大模型演化背后的“效率革命”。在这个新的发展阶段,模型不再依赖“堆大”,而是通过更智能的训练、更优的数据、更精细的结构获得更高的效率。能力密度的指数提升让我们看到:未来的大模型既可能更强,也可能更轻、更快、更便宜,甚至随时运行在每个人的口袋里。

我们正在见证语言模型从“规模时代”迈向“密度时代”,而这一转变,或许将深刻改变未来五年乃至整个AI产业的面貌。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐