大力出奇迹的背后：OpenAI找到了炼丹的物理定律

幂律说的是这么回事：当你把某个变量乘以 k 倍，结果会以 k 的某个固定次方的比例变化。用公式写就是 L ∝ x^{-α}。翻译成人话：你每把参数量翻10倍，loss 就会下降一个可预测的固定比例。不是一个大概的趋势，而是一条在对数坐标上近乎完美的直线。这意味着什么？意味着你可以提前预测一个更大的模型会有多好。在它还没训练完之前，你就知道结果。这对于一个动辄花几百万美元训练模型的公司来说，价值不言

KingWang_WHU

6人浏览 · 2026-05-16 13:53:58

KingWang_WHU · 2026-05-16 13:53:58 发布

在这里插入图片描述

如果你从2020年开始关注大模型，你一定听过一句话：「大力出奇迹」。把模型做大、数据做多、算力堆够，效果就是会变好。这句话听起来像玄学，但 OpenAI 在2020年发了一篇论文，告诉全世界：这不是玄学，这是物理学。

这就是今天要聊的 Scaling Laws for Neural Language Models，Jared Kaplan 领衔，OpenAI 出品。这篇论文发现了一条简洁到令人震惊的规律——模型的 loss 和三个因素之间，遵循精确的幂律（power law）关系。

什么是幂律？为什么它重要？

幂律说的是这么回事：当你把某个变量乘以 k 倍，结果会以 k 的某个固定次方的比例变化。用公式写就是 L ∝ x^{-α}。

翻译成人话：你每把参数量翻10倍，loss 就会下降一个可预测的固定比例。不是一个大概的趋势，而是一条在对数坐标上近乎完美的直线。

这意味着什么？意味着你可以提前预测一个更大的模型会有多好。在它还没训练完之前，你就知道结果。这对于一个动辄花几百万美元训练模型的公司来说，价值不言而喻。

三个变量，三条曲线

论文的核心发现是，语言模型的 cross-entropy loss 受三个因素影响，而且每个都独立地服从幂律：

第一，模型参数量（N）。参数越多，loss 越低。这条曲线非常平滑，几乎没有噪声。你可以想象成一条从左上到右下的完美直线（对数坐标下）。

第二，数据集大小（D）。训练数据越多，loss 也越低，同样遵循幂律。更多数据的效果是高度可预测的。

第三，计算量（C）。你总共花了多少 FLOPs，跟最终 loss 之间也是幂律关系。花更多的钱（算力），得到更好的模型，而且好多少是可以算出来的。

loss 随参数量、数据量、计算量的幂律变化曲线，在对数坐标下呈现出惊人的线性关系（来源：原论文Figure 1）

最反直觉的发现：架构不重要

这篇论文里最让人意外的结论之一：模型的架构细节，远没有你想的那么重要。

层数、宽度、注意力头数、残差连接的方式——这些我们在论文里吵来吵去的设计选择，在大尺度上几乎被「参数总量」这一个数字吸收了。两个参数量相同的模型，只要架构不脱离合理范围，不管内部具体怎么设计，最终的 loss 差不多。

打个比方：你盖一栋楼，是用红砖还是灰砖，窗户开圆的还是方的，这些「架构」选择对楼的高度影响不大。真正决定楼有多高的，是你用了多少材料（参数量）。

这个发现直接给了整个领域一记重锤——别折腾架构了，堆参数就完了。

大模型 vs 长训练：怎么选？

论文的另一个关键结论同样有实用价值：在固定算力预算下，训练一个更大的模型，比把小模型训练更久要划算得多。

具体来说，如果你的预算是固定的，想要最好的效果，正确的策略是：增大模型参数量，同时减少训练步数（early stop）。一个10倍大的模型训练到收敛前的某个时间点，效果会好于把原来那个小模型训练10倍长的时间。

这个发现直接影响了后来 GPT-3 的设计决策——超大模型，适度的训练时长。而不是搞一个小模型，训练到天荒地老。

幂律的阴暗面

幂律虽然简洁优美，但它也藏着一个让人焦虑的事实：边际收益递减。

因为 loss 的下降是 x 的负指数，所以你每次想获得同样幅度的 loss 提升，需要的投入是指数级增长的。从 1B 到 10B 参数，loss 可能降了 0.1；但从 10B 到 100B，同样的 0.1 降幅可能需要更多的资源。

换句话说，前 80 分的提升花 20 块钱，后 20 分的提升可能要花 80 块。这就解释了为什么顶级模型的训练成本从百万美元飙升到上亿美元——想要那最后几个百分点的提升，代价是惊人的。

在固定计算预算下，参数量与训练步数的最优分配关系（来源：原论文Figure 3）

为什么这篇论文改变了一切？

Scaling Laws 的意义远不止学术发现。它实际上成了大模型军备竞赛的理论基石。

在它之前，做大模型是一种赌注——谁知道堆参数是不是真的有用？在它之后，做大模型变成了一种可预测的投资。你花多少钱，就能预期得到多好的模型。这让 Google、Meta、百度、字节这些公司敢于砸几十上百亿美元去训练下一代模型。

回头看，Scaling Laws 几乎预言了后来发生的一切：GPT-3 的 1750 亿参数、PaLM 的 5400 亿参数、GPT-4 的（据传）万亿级参数。每一步都在验证 Kaplan 画出的那条直线。

做工程的我们都知道，一个领域从「靠经验」走向「有理论指导」，意味着什么。Scaling Laws 就是把大模型训练从炼丹术变成了工程学。你不用再靠直觉决定模型多大，而是拿公式算出来。

当然，后来 Chinchilla 的研究者发现 OpenAI 对数据量的幂律指数估计偏保守了——数据其实比 Scaling Laws 原文认为的更重要。但那是另一篇论文的故事了。

论文链接：https://arxiv.org/abs/2001.08361

kk的大模型论文学习笔记 · 第6篇 · Scaling Laws

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

QDKT6-3-2AI数据分析报告生成平台开发&测试（交付产品）

大模型根据任务和数据制定分析计划→决策调用哪个工具→执行工具并获取返回结果→根据结果继续调整计划，直至完成分析，这是产品的核心逻辑，无需零基础深究其原理，只需让AI理解并实现即可。，实现核心功能：用户上传Excel数据表格+输入分析需求，产品自动生成Python代码、处理数据并输出基于ECharts的可视化分析报告，全程无需大量手写代码，无需跨团队协作。，全程用AI生成代码，仅做本地测试，步骤具体

2048 AI社区

数据治理工具推荐：2026年5月深度评测，破解企业转型瓶颈

摘要：随着数据规模和应用场景的快速扩展，传统数据治理方式已难以满足企业需求。瓴羊Dataphin凭借AI原生能力、全链路治理及安全合规优势，成为2026年企业数据治理的核心工具。其智能建模、自动化管控及多行业适配性（如金融、零售）显著提升效率，支持EB级数据处理，并通过19项专利与权威认证确保安全。本文提供三维选型框架（AI能力、链路闭环、合规生态），推荐企业根据规模与战略选择适配方案：中大型企

2048 AI社区

2026企业级智能体开发平台选型指南：基于全球视野下的标杆推荐

企业级智能体开发平台市场正迎来爆发式增长，预计2028年中国市场规模将达8.52万亿元。主流平台可分为全栈式、通用型和行业垂直三类：蚂蚁数科Agentar提供全链路开发能力，支持跨行业应用；NebulaAI等通用平台适合私有化部署；金融、医疗等垂直领域则有专用解决方案。平台选择需考虑企业规模、行业特性和技术能力，大型企业宜选私有部署方案，中小企业可优先低代码平台。智能体技术通过提升自主决策能力，正